AplikaceAplikace
Nastavení

Reprezentativnost korpusu

Reprezentativnost a vyváženost jsou v korpusové lingvistice často používané, ale nejednoznačně definované pojmy dotýkající se vztahu mezi korpusem (jako vybraným vzorkem jazyka) a jazykovou realitou (jako celou populací). Je třeba zdůraznit, že žádný korpus nepokrývá kompletní spektrum užití příslušného jazyka a že problém reprezentativnosti dosud nebyl uspokojivě vyřešen. V porovnání s metodami introspekce či náhodným výběrem dokladů určitého jevu ovšem využití korpusů představuje výrazné přiblížení požadavku opakovatelnosti a ověřitelnosti výzkumů.

Obecně lze říci, že korpus je vzhledem k jazyku (resp. k jeho části, např. jazyku psanému) reprezentativní, obsahuje-li v dostatečném množství texty všech jeho variet. Odpovídají-li navíc poměry mezi varietami v korpusu jejich poměrům v reálném úzu, jedná se zároveň o korpus vyvážený právě z hlediska užívání. Specifickou definici zavádí D. Biber, který reprezentativnost ztotožňuje s tím, do jaké míry vzorek (korpus) postihuje rozsah variability přítomný v populaci.1) V jiných přístupech se však pojmy reprezentativnost a vyváženost zaměňují.

Tyto problémy přinášejí řadu praktických otázek pro výstavbu korpusu: jaké množství textů je dostatečné, jak vymezit všechny jednotlivé variety, a hlavně jak zjistit poměry jejich zastoupení v úzu? Reprezentativnost korpusu je proto třeba chápat jako deziderátum, zároveň se však jedná o úlohu, která současnými metodami a prostředky není zcela uspokojivě řešitelná. Symptomatické pro tento typ problémů je i to, že neexistuje způsob, jak objektivně měřit reprezentativnost, tedy míru, v níž korpus jazyku odpovídá.

Na druhé straně je však reprezentativnost a vyváženost korpusů nezbytná proto, že bez nich nelze korpusová data interpretovat ve vztahu k jazyku, tj. udělat nutný krok od popisu dat v korpusu k popisu jazyka. To umožňují právě principy reprezentativnosti a vyváženosti. Mezi korpusem a jazykovou realitou je tedy vztah, který nezbývá než korigovat (nutně subjektivní) intuicí.

Reprezentativnost v ČNK

Korpusy psané češtiny

Reprezentativnost a vyváženost psaných korpusů řady SYN v ČNK se v průběhu let vyvíjela. Korpusy aspirující na reprezentativnost vydané do roku 2010 včetně (SYN2000, SYN2005 a SYN2010) opírají svoje složení o řadu průzkumů, které se pokoušely různými způsoby kvantifikovat recepci psaných textů běžnými čtenáři. Tento způsob zjišťování proporcí jednotlivých žánrů a textových typů má celou řadu praktických i metodologických problémů (je např. otázka, do jaké míry a jak přesně jsou mluvčí schopni reflektovat svoje vlastní čtenářství v průběhu delšího úseku); klíčová je rovněž otázka zastarávání takovýchto průzkumů (a potřeby jejich neustále aktualizace) stejně jako jejich finanční a organizační náročnost.

Počínaje korpusem SYN2015 byla s revizí klasifikace textů přepracována i koncepce vyvažování korpusu2), která spíše než proporce jednotlivých textových typů zohledňuje jejich klasifikaci a hierarchii. Na základě zkušeností z předchozích korpusů tak neabsolutizuje nějaký konkrétní poměr textů určitého typu, ale staví jednotlivé kategorie textů na stejnou úroveň a snaží se o rovnoměrné zastoupení. Rezignuje tím na vyváženost (proporce stanovené arbitrárně pro jednotlivé kategorie nemusí odpovídat jejich zastoupení v populaci), avšak při zachování reprezentativnosti (každý hlavní typ textu by měl být v korpusu zastoupen). Zodpovědnost za sestavení korpusu se tak do určité míry přesouvá na uživatele, který zároveň dostává v rozhraní KonText k dispozici nástroje na tvorbu vlastního subkorpusu se složením, které by líp reflektovalo jeho aktuální výzkumné potřeby.

Mluvené korpusy

Situace u mluvených korpusů (řady Oral a Ortofon) je výrazně limitována množstvím dostupných dat. Pokud to sesbíraný materiál dovoloval, byly korpusy uspořádány tak, aby byly vyvážené z hlediska zastoupení hlavních sociolingvistických kategorií (pohlaví, věk, vzdělání a oblast pobytu mluvčího v dětství.). V zásadě se tak stejně jako v případě korpusů psaných (od SYN2015 dále) preferuje vyváženost jednotlivých kategorií mluvčích (viz popis korpusu Ortofon) na úkor demografických proporcí.

Specializované korpusy

Specializované korpusy nereprezentují jazykový úzus jako celek, ale informují nás o velmi specifickém užití jazyka, vzhledem k němuž můžou být – jsou-li kvalitně zpracovány – reprezentativní.

Příklady:

Související odkazy

1)
„Representativeness refers to the extent to which a sample includes the full range of variability in a population“ (D. Biber (1993): Representativeness in corpus design. Literary and linguistic computing, 8(4), p. 243).
2)
Cvrček, V. - Čermáková, A. - Křen, M.: Nová koncepce synchronních korpusů psané češtiny. Slovo a slovesnost 77, s. 83–101