Nastavení

Referenční korpus

Termín referenční korpus je používán minimálně ve dvou významech:

  1. pro entitu sloužící jako standard pro porovnání
  2. pro entitu, která je zpětně dostupná

První význam je obvyklý zejm. v publikacích, v nichž se pozornost soustředí na porovnávání textů či korpusů, druhý význam se vžil zejména v prostředí ČNK pro označování korpusů, jejichž podoba se v čase nemění.

Referenční korpus jako standard

Při výzkumu, který je založen na porovnávání frekvencí jevů v různých korpusech (např. při zjišťování klíčových slov, viz aplikace KWords), se entita, s níž je zkoumaný text porovnáván, označuje za referenční. Na základě porovnání s referenčním korpusem, který slouží nejčastěji jako reprezentant běžného úzu, můžeme vyslovovat hypotézy o neobvykle vysoké (či naopak nízké) frekvenci jevu ve zkoumaném textu.

Referenční korpus v tomto významu slouží jako svého druhu standard a ukazatel toho, co je obecně obvyklé. V důsledku toho se za referenční korpusy v tomto smyslu považují často korpusy, které jsou reprezentativní a aspirují na zachycení obecného úzu (v protikladu ke korpusům specializovaným).

Referenční korpus jako neměnná entita

Označení referenční korpus je v rámci ČNK užíváno pro takové korpusy, které se od doby svého publikování nemění. Princip referenčnosti některých korpusů (např. SYN2005, SYN2010, SYN2015) umožňuje replikovatelnost výsledků. Tím, že se korpus i přes jeho neustálé zastarávání ponechává jako neměnná referenční entita, poskytuje badatelům příležitost opakovaně si ověřit vlastní výzkum nebo zopakovat výzkum cizí. Právě princip referenčnosti výzkumných dat je jedním z důležitých předpokladů posunující empirickou lingvistiku směrem k větší exaktnosti. Referenční korpus tak zůstává neměnný i v případě, že od doby jeho vzniku pokročil vývoj automatických nástrojů na morfologické značkování a lemmatizaci textů.

Všechny korpusy zveřejněné ČNK po roce 2014 jsou bez výjimky referenční, a tedy zpětně dostupné. To se týká také korpusů bez vročení (např. SYN, DIAKORP, InterCorp), jejichž nedílnou součástí se stalo číslo verze, která korpus jednoznačně identifikuje. Tyto korpusy jsou tedy verzované, jejich jednotlivé verze jsou referenční a zajišťují tak plnou replikovatelnost výstupů.

Na rozdíl od prvního významu termínu referenční korpus se tedy v rámci ustálené praxe ČNK tímto způsobem označují také korpusy, jejichž obsah se nemění, ale jsou svým složením specifické nebo specializované, např. SYN2013PUB.

Související odkazy