AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Reprezentativnost korpusu

Reprezentativnost a vyváženost jsou v korpusové lingvistice často používané, ale nejednoznačně definované pojmy dotýkající se vztahu mezi korpusem (jako vybraným vzorkem jazyka) a jazykovou realitou (jako celou populací). Je třeba stále znovu zdůrazňovat, že žádný korpus nepokrývá kompletní spektrum užití žádného jazyka a že problém reprezentativnosti dosud nebyl uspokojivě vyřešen. V porovnání s metodami introspekce či náhodným výběrem dokladů určitého jevu ovšem využití korpusů představuje výrazné přiblížení požadavku opakovatelnosti a ověřitelnosti výzkumů.

Obecně lze říci, že korpus je vzhledem k jazyku (resp. k jeho části, např. jazyku psanému) reprezentativní, obsahuje-li v dostatečném množství texty všech jeho variet. Odpovídají-li poměry mezi varietami v korpusu jejich poměrům v reálném úzu, jedná se navíc o korpus vyvážený právě z hlediska užívání. V jiných přístupech se však pojmy reprezentativnost a vyváženost zaměňují.

Tyto problémy přinášejí řadu praktických otázek pro výstavbu korpusu: jaké množství textů je dostatečné, jak vymezit všechny jednotlivé variety, a hlavně jak zjistit poměry jejich zastoupení v úzu? Reprezentativnost korpusu je proto třeba chápat jako desiderátum, zároveň se však jedná o úlohu, která současnými metodami a prostředky není zcela uspokojivé řešitelná. Symptomatické pro tento typ problémů je i to, že neexistuje způsob, jak objektivně měřit reprezentativnost, tedy míru, v níž korpus jazyku odpovídá.

Na druhé straně je však reprezentativnost a vyváženost korpusů nezbytná proto, že bez nich nelze korpusová data interpretovat ve vztahu k jazyku, tj. udělat nutný krok od popisu dat v korpusu k popisu jazyka. To umožňují právě principy reprezentativnosti a vyváženosti. Mezi korpusem a jazykovou realitou je tedy vztah, který nezbývá než korigovat (nutně subjektivní) intuicí.

Reprezentativnost v ČNK

Korpusy psané češtiny

Reprezentativnost a vyváženost psaných korpusů řady SYN v ČNK se v průběhu let vyvíjela. Korpusy aspirující na reprezentativnost vydané do roku 2010 včetně (SYN2000, SYN2005 a SYN2010) opírají svoje složení o řadu průzkumů, které se pokoušely různými způsoby kvantifikovat výše recepci psaných textů běžnými čtenáři. Tento způsob zjišťování proporcí jednotlivých žánrů a textových typů má celou řadu praktických i metodologických problémů (je např. otázka, do jaké míry a jak přesně jsou mluvčí schopni reflektovat svoje vlastní čtenářství v průběhu delšího úseku); klíčová je rovněž otázka zastarávání takovýchto průzkumů (a potřeby jejich neustále aktualizace) stejně jako jejich finanční a organizační náročnost.

Počínaje korpusem SYN2015 byla s revizí klasifikace textů přepracována i koncepce vyvažování korpusu1), která spíše než proporce jednotlivých textových typů zohledňuje jejich klasifikaci a hierarchii. Na základě zkušeností z předchozích korpusů tak neabsolutizuje nějaký konkrétní poměr textů určitého typu, ale staví jednotlivé kategorie textů na stejnou úroveň a snaží se o rovnoměrné zastoupení. Rezignuje tím na vyváženost (proporce stanovené arbitrárně pro jednotlivé kategorie nemusí odpovídat jejich zastoupení v populaci), při zachování reprezentativnosti (každý hlavní typ textu by měl být v korpusu zastoupen). Zodpovědnost za sestavení korpusu se tak do určité míry přesouvá na uživatele, který zároveň dostává v rozhraní KonText k dispozici nástroje na tvorbu vlastního subkorpusu se složením, které by líp reflektovalo jeho aktuální výzkumné potřeby.

Specializované korpusy

Specializované korpusy nereprezentují jazykový úzus jako celek, ale informují nás o velmi specifickém užití jazyka, vzhledem k němuž můžou být - jsou-li kvalitně zpracovány - reprezentativní.

Příklady:

Michal Křen, Olga Richterová

Související odkazy

1)
Cvrček, V. - Čermáková, A. - Křen, M.: Nová koncepce synchronních korpusů psané češtiny. Slovo a slovesnost 77, s. 83-101