Toto je starší verze dokumentu!
Obsah
Reprezentativnost korpusu
Reprezentativnost a vyváženost jsou v korpusové lingvistice často používané, ale nejednoznačně definované pojmy dotýkající se vztahu mezi korpusem (jako vybraným vzorkem jazyka) a jazykovou realitou (jako celou populací). Je třeba stále znovu zdůrazňovat, že žádný korpus nepokrývá kompletní spektrum užití žádného jazyka a že problém reprezentativnosti dosud nebyl uspokojivě vyřešen. V porovnání s metodami introspekce či náhodným výběrem dokladů určitého jevu ovšem využití korpusů představuje výrazné přiblížení požadavku opakovatelnosti a ověřitelnosti výzkumů.
Obecně lze říci, že korpus je vzhledem k jazyku (resp. k jeho části, např. jazyku psanému) reprezentativní, obsahuje-li v dostatečném množství texty všech jeho variet. Odpovídají-li poměry mezi varietami v korpusu jejich poměrům v reálném úzu, jedná se navíc o korpus vyvážený právě z hlediska užívání. V jiných přístupech se však pojmy reprezentativnost a vyváženost zaměňují.
Tyto problémy přinášejí řadu praktických otázek pro výstavbu korpusu: jaké množství textů je dostatečné, jak vymezit všechny jednotlivé variety, a hlavně jak zjistit poměry jejich zastoupení v úzu? Reprezentativnost korpusu je proto třeba chápat jako desiderátum, zároveň se však jedná o úlohu, která současnými metodami a prostředky není zcela uspokojivé řešitelná. Symptomatické pro tento typ problémů je i to, že neexistuje způsob, jak objektivně měřit reprezentativnost, tedy míru, v níž korpus jazyku odpovídá.
Na druhé straně je však reprezentativnost a vyváženost korpusů nezbytná proto, že bez nich nelze korpusová data interpretovat ve vztahu k jazyku, tj. udělat nutný krok od popisu dat v korpusu k popisu jazyka. To umožňují právě principy reprezentativnosti a vyváženosti. Mezi korpusem a jazykovou realitou je tedy vztah, který nezbývá než korigovat (nutně subjektivní) intuicí.
Reprezentativnost v ČNK
Korpusy psané češtiny
Reprezentativnost a vyváženost psaných korpusů řady SYN v ČNK se v průběhu let vyvíjela. Korpusy aspirující na reprezentativnost vydané do roku 2010 včetně (SYN2000, SYN2005 a SYN2010) opírají svoje složení o řadu průzkumů, které se pokoušely různými způsoby kvantifikovat výše recepci psaných textů běžnými čtenáři. Tento způsob zjišťování proporcí jednotlivých žánrů a textových typů má celou řadu praktických i metodologických problémů (je např. otázka, do jaké míry a jak přesně jsou mluvčí schopni reflektovat svoje vlastní čtenářství v průběhu delšího úseku); klíčová je rovněž otázka zastarávání takovýchto průzkumů (a potřeby jejich neustále aktualizace) stejně jako jejich finanční a organizační náročnost.
Počínaje korpusem SYN2015 byla s revizí klasifikace textů přepracována i koncepce vyvažování korpusu1), která spíše než proporce jednotlivých textových typů zohledňuje jejich klasifikaci a hierarchii. Na základě zkušeností z předchozích korpusů tak neabsolutizuje nějaký konkrétní poměr textů určitého typu, ale staví jednotlivé kategorie textů na stejnou úroveň a snaží se o rovnoměrné zastoupení. Rezignuje tím na vyváženost (proporce stanovené arbitrárně pro jednotlivé kategorie nemusí odpovídat jejich zastoupení v populaci), při zachování reprezentativnosti (každý hlavní typ textu by měl být v korpusu zastoupen). Zodpovědnost za sestavení korpusu se tak do určité míry přesouvá na uživatele, který zároveň dostává v rozhraní KonText k dispozici nástroje na tvorbu vlastního subkorpusu se složením, které by líp reflektovalo jeho aktuální výzkumné potřeby.
Mluvené korpusy
Situace u mluvených korpusů (řady Oral a Ortofon) je výrazně limitována dostatkem dat. Pokud to sesbíraný materiál dovoloval, byly korpusy uspořádány tak, aby byly vyvážené z hlediska zastoupení hlavních sociolingvistických kategorií (pohlaví, věk, vzdělání a oblast pobytu mluvčího v dětství.). V zásadě se tak stejně jako v případě korpusů psaných (od SYN2015 dále) preferuje vyváženost jednotlivých kategorií mluvčích (viz popis korpusu Ortofon) na úkor demografických proporcí.
Specializované korpusy
Specializované korpusy nereprezentují jazykový úzus jako celek, ale informují nás o velmi specifickém užití jazyka, vzhledem k němuž můžou být - jsou-li kvalitně zpracovány - reprezentativní.
Příklady: