AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Reprezentativnost korpusu

Reprezentativnost a vyváženost jsou v korpusové lingvistice často používané, ale nejednoznačně definované pojmy dotýkající se vztahu mezi korpusem (jako vybraným vzorkem jazyka) a jazykovou realitou (jako celou populací). Je třeba stále znovu zdůrazňovat, že žádný korpus nepokrývá kompletní spektrum užití žádného jazyka a že problém reprezentativnosti dosud nebyl uspokojivě vyřešen. V porovnání s metodami introspekce či náhodným výběrem dokladů určitého jevu ovšem jde o výrazné přiblížení požadavku opakovatelnosti a ověřitelnosti výzkumů.

Obecně lze říci, že korpus je vzhledem k jazyku (v realitě tedy vzhledem k jeho části, např. jazyku psanému) reprezentativní, obsahuje-li v dostatečném množství texty všech jeho variet. Odpovídají-li poměry mezi varietami v korpusu jejich poměrům v reálném úzu, jedná se navíc o korpus vyvážený právě z hlediska užívání (v řadě SYN definovaného jako recepce textů určitého typu v určitém poměru). V jiných pohledech se však pojmy reprezentativnost a vyváženost zaměňují.

Tyto definice přinášejí řadu otázek: jaké množství textů je dostatečné, jak vymezit jednotlivé variety, a hlavně jak zjistit poměry jejich zastoupení v úzu? Motivace je však zřejmá: korpus by měl být věrným odrazem jazyka, malým vzorkem, který však v maximální možné míře odpovídá celku. Zásadním problémem je ovšem nemožnost skutečně objektivně měřit míru, v níž korpus jazyku odpovídá.

Na druhé straně je však reprezentativnost a vyváženost korpusů nezbytná proto, že bez nich nelze korpusová data interpretovat ve vztahu k jazyku, tj. udělat nutný krok od popisu dat v korpusu k popisu jazyka. To umožňují právě principy reprezentativnosti a vyváženosti. Mezi korpusem a jazykovou realitou je tedy vztah, který nezbývá než korigovat (nutně subjektivní) intuicí.

Reprezentativnost a vyváženost psaných korpusů řady SYN v ČNK se zakládá na řadě průzkumů, které se pokoušely různými způsoby kvantifikovat výše zmíněnou recepci (ne tedy např. produkci) psaných textů běžnými čtenáři. Přestože je výsledné složení těchto korpusů v některých ohledech diskutabilní, jde o pokus uchopit reprezentativnost a vyváženost obecných, nespecializovaných jazykových korpusů na solidním základě.

Specializované korpusy

Nereprezentují větší část jazykového úzu, ale podávají obraz o velmi specifickém užití jazyka.

Příklady:

Michal Křen, Olga Richterová

Související odkazy