Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:reprezentativnost [2013/09/13 15:32]
Václav Cvrček Schvaleno pro 1. verzi
pojmy:reprezentativnost [2019/10/16 15:49] (aktuální)
Václav Cvrček [Specializované korpusy]
Řádek 1: Řádek 1:
 ====== Reprezentativnost korpusu ====== ====== Reprezentativnost korpusu ======
  
-//​Reprezentativnost//​ a //​vyváženost//​ jsou v korpusové lingvistice často používané,​ ale nejednoznačně definované pojmy dotýkající se vztahu mezi [[pojmy:​korpus|korpusem]] (jako vybraným vzorkem jazyka) a jazykovou realitou (jako celou populací). Je třeba ​stále znovu zdůrazňovat, že žádný korpus nepokrývá kompletní spektrum užití ​žádného ​jazyka a že problém reprezentativnosti dosud nebyl uspokojivě vyřešen. V porovnání s metodami [[pojmy:​introspekce|introspekce]] či náhodným výběrem dokladů určitého jevu ovšem ​jde o výrazné přiblížení požadavku opakovatelnosti a ověřitelnosti výzkumů.+//​Reprezentativnost//​ a //​vyváženost//​ jsou v korpusové lingvistice často používané,​ ale nejednoznačně definované pojmy dotýkající se vztahu mezi [[pojmy:​korpus|korpusem]] (jako vybraným vzorkem jazyka) a jazykovou realitou (jako celou populací). Je třeba zdůraznit, že žádný korpus nepokrývá kompletní spektrum užití ​příslušného ​jazyka a že problém reprezentativnosti dosud nebyl uspokojivě vyřešen. V porovnání s metodami [[pojmy:​introspekce|introspekce]] či náhodným výběrem dokladů určitého jevu ovšem ​využití korpusů představuje ​výrazné přiblížení požadavku opakovatelnosti a ověřitelnosti výzkumů.
  
-Obecně lze říci, že korpus je vzhledem k jazyku (resp. k jeho části, např. jazyku psanému) **reprezentativní**,​ obsahuje-li v dostatečném množství texty všech jeho variet. Odpovídají-li poměry mezi varietami v korpusu jejich poměrům v reálném úzu, jedná se navíc ​o korpus **vyvážený** právě z hlediska užívání (řadě [[cnk:​syn|SYN]] definovaného jako recepce textů určitého typu určitém poměru). V jiných ​pohledech ​se však pojmy //​reprezentativnost//​ a //​vyváženost//​ zaměňují.+Obecně lze říci, že korpus je vzhledem k jazyku (resp. k jeho části, např. jazyku psanému) **reprezentativní**,​ obsahuje-li v dostatečném množství texty všech jeho variet. Odpovídají-li ​navíc ​poměry mezi varietami v korpusu jejich poměrům v reálném úzu, jedná se zároveň ​o korpus **vyvážený** právě z hlediska užívání. Specifickou definici zavádí D. Biber, který reprezentativnost ztotožňuje s tím, do jaké míry vzorek ​(korpus) postihuje rozsah variability přítomný ​populaci.(("​Representativeness refers to the extent to which a sample includes the full range of variability in a population"​ (D. Biber (1993): Representativeness in corpus designLiterary and linguistic computing, 8(4), p. 243).))  ​V jiných ​přístupech ​se však pojmy //​reprezentativnost//​ a //​vyváženost//​ zaměňují. ​
  
-Tyto definice ​přinášejí řadu otázek: jaké množství textů je dostatečné,​ jak vymezit jednotlivé variety, a hlavně jak zjistit poměry jejich zastoupení v úzu? ​Motivace ​je však zřejmá: korpus by měl být věrným odrazem jazyka, malým vzorkemkterý ​však v maximální možné míře odpovídá celkuZásadním problémem ​je ovšem nemožnost skutečně ​objektivně měřit míru, v níž korpus jazyku odpovídá. ​+Tyto problémy ​přinášejí řadu praktických ​otázek ​pro výstavbu korpusu: jaké množství textů je dostatečné,​ jak vymezit ​všechny ​jednotlivé variety, a hlavně jak zjistit poměry jejich zastoupení v úzu? ​Reprezentativnost korpusu ​je proto třeba chápat jako //​deziderátum//​zároveň se však jedná o úlohu, která současnými metodami a prostředky není zcela uspokojivě ​řešitelnáSymptomatické pro tento typ problémů ​je i to, že neexistuje způsob, jak objektivně měřit ​reprezentativnost,​ tedy míru, v níž korpus jazyku odpovídá. ​
  
 Na druhé straně je však reprezentativnost a vyváženost korpusů nezbytná proto, že bez nich nelze korpusová data interpretovat ve vztahu k jazyku, tj. udělat nutný krok od popisu dat v korpusu k popisu jazyka. To umožňují právě principy reprezentativnosti a vyváženosti. Mezi korpusem a jazykovou realitou je tedy vztah, který nezbývá než korigovat (nutně subjektivní) intuicí. Na druhé straně je však reprezentativnost a vyváženost korpusů nezbytná proto, že bez nich nelze korpusová data interpretovat ve vztahu k jazyku, tj. udělat nutný krok od popisu dat v korpusu k popisu jazyka. To umožňují právě principy reprezentativnosti a vyváženosti. Mezi korpusem a jazykovou realitou je tedy vztah, který nezbývá než korigovat (nutně subjektivní) intuicí.
  
-Reprezentativnost ​a vyváženost psaných korpusů řady SYN v ČNK se zakládá na řadě průzkumů, které se pokoušely různými způsoby kvantifikovat výše zmíněnou recepci (ne tedy např. produkci) psaných textů běžnými čtenáři. Přestože je výsledné složení těchto korpusů v některých ohledech diskutabilní,​ jde o pokus uchopit reprezentativnost a vyváženost obecných, nespecializovaných jazykových korpusů na solidním základě.+===== Reprezentativnost v ČNK =====
  
-====== Specializované korpusy ======+==== Korpusy psané češtiny ​====
  
-Specializované korpusy nereprezentují jazykový úzus jako celek, ale informují nás o velmi specifickém užití jazyka, vzhledem k němuž můžou být jsou-li kvalitně zpracovány ​reprezentativní.+Reprezentativnost a vyváženost psaných korpusů řady [[cnk:​syn|SYN]] v ČNK se v průběhu let vyvíjela. Korpusy aspirující na reprezentativnost vydané do roku 2010 včetně ([[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]] a [[cnk:​syn2010|SYN2010]]) opírají svoje složení o řadu průzkumů, které se pokoušely různými způsoby kvantifikovat //recepci// psaných textů běžnými čtenáři. Tento způsob zjišťování proporcí jednotlivých [[pojmy:​genre|žánrů]] a [[pojmy:​txtype|textových typů]] má celou řadu praktických i metodologických problémů (je např. otázka, do jaké míry a jak přesně jsou mluvčí schopni reflektovat svoje vlastní čtenářství v průběhu delšího úseku); klíčová je rovněž otázka zastarávání takovýchto průzkumů (a potřeby jejich neustále aktualizace) stejně jako jejich finanční a organizační náročnost. 
 + 
 +Počínaje korpusem [[cnk:​syn2015|SYN2015]] byla s revizí [[cnk:​klasifikace_textu_syn2015|klasifikace textů]] přepracována i koncepce vyvažování korpusu((Cvrček,​ V. - Čermáková,​ A. - Křen, M.: [[http://​sas.ujc.cas.cz/​archiv.php?​art=4324|Nová koncepce synchronních korpusů psané češtiny]]. Slovo a slovesnost 77, s. 83–101)), která spíše než proporce jednotlivých textových typů zohledňuje jejich klasifikaci a hierarchii. Na základě zkušeností z předchozích korpusů tak neabsolutizuje nějaký konkrétní poměr textů určitého typu, ale staví jednotlivé kategorie textů na stejnou úroveň a snaží se o //​rovnoměrné//​ zastoupení. Rezignuje tím na vyváženost (proporce stanovené arbitrárně pro jednotlivé kategorie nemusí odpovídat jejich zastoupení v populaci), avšak přizachování reprezentativnosti (každý hlavní typ textu by měl být v korpusu zastoupen). Zodpovědnost za sestavení korpusu se tak do určité míry přesouvá na uživatele, který zároveň dostává v rozhraní [[manualy:​kontext:​index|KonText]] k dispozici nástroje na tvorbu vlastního [[manualy:​kontext:​subkorpus|subkorpusu]] se složením, které by líp reflektovalo jeho aktuální výzkumné potřeby. 
 + 
 +==== Mluvené korpusy ==== 
 + 
 +Situace u mluvených korpusů (řady [[cnk:​oral|Oral]] a [[cnk:​ortofon|Ortofon]]) je výrazně limitována množstvím dostupných dat. Pokud to sesbíraný materiál dovoloval, byly korpusy uspořádány tak, aby byly vyvážené z hlediska zastoupení hlavních sociolingvistických kategorií (pohlaví, věk, vzdělání a oblast pobytu mluvčího v dětství.). V zásadě se tak stejně jako v případě korpusů psaných (od SYN2015 dále) preferuje vyváženost jednotlivých kategorií mluvčích (viz [[cnk:​ortofon#​vyvazenost_korpusu|popis korpusu Ortofon]]) na úkor demografických proporcí. 
 + 
 +==== Specializované korpusy ==== 
 + 
 +Specializované korpusy nereprezentují jazykový úzus jako celek, ale informují nás o velmi specifickém užití jazyka, vzhledem k němuž můžou být – jsou-li kvalitně zpracovány ​– reprezentativní.
  
 Příklady: ​ Příklady: ​
Řádek 20: Řádek 30:
   * [[cnk:​link|Korpus LINK]]   * [[cnk:​link|Korpus LINK]]
   * [[cnk:​orwell|Korpus ORWELL]]   * [[cnk:​orwell|Korpus ORWELL]]
- 
- --- //Michal Křen, Olga Richterová//​ 
  
 ==== Související odkazy ==== ==== Související odkazy ====