Toto je starší verze dokumentu!
Obsah
Referenční korpus
Termín referenční korpus je používán minimálně ve dvou významech:
- pro entitu sloužící jako standard pro porovnání
- pro entitu, která je zpětně dostupná
První význam je obvyklý zejm. v publikacích, v nichž se pozornost soustředí na porovnávání textů či korpusů, druhý význam se vžil zejména v prostředí ČNK pro označování korpusů, jejichž podoba se v čase nemění.
Referenční korpus jako standard
Při výzkumu, který je založen na porovnávání frekvencí jevů v různých korpusech (např. při zjišťování klíčových slov, viz aplikace KWords), se entita, s níž je zkoumaný text porovnáván, označuje za referenční. Na základě porovnání s referenčním korpusem, který slouží nejčastěji jako reprezentant běžného úzu, můžeme vyslovovat hypotézy o neobvykle vysoké (či naopak nízké) frekvenci jevu ve zkoumaném textu.
Referenční korpus v tomto významu slouží jako svého druhu standard a ukazatel toho, co je obecně obvyklé. V důsledku toho se za referenční korpusy v tomto smyslu považují často korpusy, které jsou reprezentativní a aspirují na zachycení obecného úzu (v protikladu ke korpusům specializovaným).
Referenční korpus jako neměnná entita
Označení referenční korpus je v rámci ČNK užíváno pro takové korpusy, které se od doby svého publikování nemění. Princip referenčnosti některých korpusů (např. SYN2000, SYN2005, SYN2010) umožňuje replikovatelnost výsledků. Tím, že se korpus i přes jeho neustálé zastarávání ponechává jako neměnná referenční entita, poskytuje badatelům příležitost opakovaně si ověřit vlastní výzkum nebo zopakovat výzkum cizí. Právě princip referenčnosti výzkumných dat je jedním z důležitých předpokladů posunující empirickou lingvistiku směrem k větší exaktnosti.
Referenční korpus tak zůstává neměnný i v případě, že od doby jeho vzniku pokročil vývoj automatických nástrojů na morfologické značkování a lemmatizaci textů.
Na rozdíl od prvního významu termínu referenční korpus se tedy v rámci ustálené praxe ČNK tímto způsobem označují také korpusy, jejichž obsah se nemění, ale jsou svým složením specifické nebo specializované, např. SYN2013PUB.