AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
pojmy:reprezentativnost [2013/06/20 14:11] – vytvořeno Václav Cvrčekpojmy:reprezentativnost [2022/11/29 12:49] (aktuální) – [Korpusy psané češtiny] Michal Škrabal
Řádek 1: Řádek 1:
 ====== Reprezentativnost korpusu ====== ====== Reprezentativnost korpusu ======
  
-korpusové lingvistice jde o často používané, ale nejednoznačně definované pojmy dotýkající se vztahu mezi korpusem (jako vzorkem) a jazykovou realitou (jako populací), který dosud nebyl uspokojivě vyřešen. +//Reprezentativnost// a //vyváženost// jsou v korpusové lingvistice často používané, ale nejednoznačně definované pojmy dotýkající se vztahu mezi [[pojmy:korpus|korpusem]] (jako vybraným vzorkem jazyka) a jazykovou realitou (jako celou populací). Je třeba zdůraznitže žádný korpus nepokrývá kompletní spektrum užití příslušného jazyka a že problém reprezentativnosti dosud nebyl uspokojivě vyřešen. V porovnání s metodami [[pojmy:introspekce|introspekce]] či náhodným výběrem dokladů určitého jevu ovšem využití korpusů představuje výrazné přiblížení požadavku opakovatelnosti a ověřitelnosti výzkumů.
  
-Obecně lze říci, že [[pojmy:korpus|korpus]] je vzhledem k jazyku (případně jeho části, např. jazyku psanému) **reprezentativní**, obsahuje-li v dostatečném množství texty všech jeho variet. Odpovídají-li poměry mezi varietami v korpusu jejich poměrům v reálném úzu, jedná se navíc o korpus **vyvážený**. V jiných pohledech se však pojmy reprezentativnost a vyváženost zaměňují.+Obecně lze říci, že korpus je vzhledem k jazyku (resp. k jeho části, např. jazyku psanému) **reprezentativní**, obsahuje-li v dostatečném množství texty všech jeho variet. Odpovídají-li navíc poměry mezi varietami v korpusu jejich poměrům v reálném úzu, jedná se zároveň o korpus **vyvážený** právě z hlediska užíváníSpecifickou definici zavádí D. Biber, který reprezentativnost ztotožňuje s tím, do jaké míry vzorek (korpus) postihuje rozsah variability přítomný v populaci.(("Representativeness refers to the extent to which a sample includes the full range of variability in a population" (D. Biber (1993): Representativeness in corpus design. Literary and linguistic computing, 8(4), p. 243).))  V jiných přístupech se však pojmy //reprezentativnost// //vyváženost// zaměňují. 
  
-Tyto definice přinášejí řadu otázek: jaké množství je dostatečné, jak vymezit jednotlivé variety, a hlavně jak zjistit poměry jejich zastoupení v úzu. Motivace je však zřejmá: korpus by měl být věrným odrazem jazyka, malým vzorkemkterý však v maximální možné míře odpovídá celkuZásadním problémem je ovšem nemožnost objektivně měřit míru, v níž korpus jazyku odpovídá. +Tyto problémy přinášejí řadu praktických otázek pro výstavbu korpusu: jaké množství textů je dostatečné, jak vymezit všechny jednotlivé variety, a hlavně jak zjistit poměry jejich zastoupení v úzu? Reprezentativnost korpusu je proto třeba chápat jako //deziderátum//zároveň se však jedná o úlohu, která současnými metodami a prostředky není zcela uspokojivě řešitelnáSymptomatické pro tento typ problémů je i to, že neexistuje způsob, jak objektivně měřit reprezentativnost, tedy míru, v níž korpus jazyku odpovídá. 
  
-Na druhé straně je však reprezentativnost a vyváženost korpusů nezbytná proto, že bez nich nelze korpusová data interpretovat ve vztahu k jazyku, tj. udělat nutný krok od popisu dat v korpusu k popisu jazyka, kterému dávají opodstatnění právě reprezentativnost a vyváženost. Mezi korpusem a jazykovou realitou je tedy vztah, který nezbývá než korigovat (nutně subjektivní) intuicí.+Na druhé straně je však reprezentativnost a vyváženost korpusů nezbytná proto, že bez nich nelze korpusová data interpretovat ve vztahu k jazyku, tj. udělat nutný krok od popisu dat v korpusu k popisu jazyka. To umožňují právě principy reprezentativnosti a vyváženosti. Mezi korpusem a jazykovou realitou je tedy vztah, který nezbývá než korigovat (nutně subjektivní) intuicí.
  
-Reprezentativnost a vyváženost psaných korpusů řady SYN v ČNK jsou založeny na řadě průzkumů, které se pokoušely různými způsoby kvantifikovat recepci (ne tedy např. produkci) psaných textů běžnými čtenáři. Přestože je výsledné složení těchto korpusů v některých ohledech diskutabilní, jde o pokus uchopit reprezentativnost a vyváženost obecných, nespecializovaných jazykových korpusů na solidním základě.+===== Reprezentativnost v ČNK =====
  
- --- //Michal Křen//+==== Korpusy psané češtiny ====
  
-==== Související odkazy ====+Reprezentativnost a vyváženost psaných korpusů řady [[cnk:syn|SYN]] v ČNK se v průběhu let vyvíjela. Korpusy aspirující na reprezentativnost vydané do roku 2010 včetně ([[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]]) opírají svoje složení o řadu průzkumů, které se pokoušely různými způsoby kvantifikovat //recepci// psaných textů běžnými čtenáři. Tento způsob zjišťování proporcí jednotlivých [[pojmy:genre|žánrů]] a [[pojmy:txtype|textových typů]] má celou řadu praktických i metodologických problémů (je např. otázka, do jaké míry a jak přesně jsou mluvčí schopni reflektovat svoje vlastní čtenářství v průběhu delšího úseku); klíčová je rovněž otázka zastarávání takovýchto průzkumů (a potřeby jejich neustále aktualizace) stejně jako jejich finanční a organizační náročnost.
  
-[[pojmy:struktura_korpusu|Struktura korpusu]]+Počínaje korpusem [[cnk:syn2015|SYN2015]] byla s revizí [[cnk:klasifikace_textu_syn2015|klasifikace textů]] přepracována i koncepce vyvažování korpusu((Cvrček, V. - Čermáková, A. - Křen, M.: [[http://sas.ujc.cas.cz/archiv.php?art=4324|Nová koncepce synchronních korpusů psané češtiny]]. Slovo a slovesnost 77, s. 83–101)), která spíše než proporce jednotlivých textových typů zohledňuje jejich klasifikaci a hierarchii. Na základě zkušeností z předchozích korpusů tak neabsolutizuje nějaký konkrétní poměr textů určitého typu, ale staví jednotlivé kategorie textů na stejnou úroveň a snaží se o //rovnoměrné// zastoupení. Rezignuje tím na vyváženost (proporce stanovené arbitrárně pro jednotlivé kategorie nemusí odpovídat jejich zastoupení v populaci), avšak při zachování reprezentativnosti (každý hlavní typ textu by měl být v korpusu zastoupen). Zodpovědnost za sestavení korpusu se tak do určité míry přesouvá na uživatele, který zároveň dostává v rozhraní [[manualy:kontext:index|KonText]] k dispozici nástroje na tvorbu vlastního [[manualy:kontext:subkorpus|subkorpusu]] se složením, které by líp reflektovalo jeho aktuální výzkumné potřeby.
  
-[[pojmy:atributy_strukturni|Strukturní atributy]]+==== Mluvené korpusy ====
  
 +Situace u mluvených korpusů (řady [[cnk:oral|Oral]] a [[cnk:ortofon|Ortofon]]) je výrazně limitována množstvím dostupných dat. Pokud to sesbíraný materiál dovoloval, byly korpusy uspořádány tak, aby byly vyvážené z hlediska zastoupení hlavních sociolingvistických kategorií (pohlaví, věk, vzdělání a oblast pobytu mluvčího v dětství.). V zásadě se tak stejně jako v případě korpusů psaných (od SYN2015 dále) preferuje vyváženost jednotlivých kategorií mluvčích (viz [[cnk:ortofon#vyvazenost_korpusu|popis korpusu Ortofon]]) na úkor demografických proporcí.
 +
 +==== Specializované korpusy ====
 +
 +Specializované korpusy nereprezentují jazykový úzus jako celek, ale informují nás o velmi specifickém užití jazyka, vzhledem k němuž můžou být – jsou-li kvalitně zpracovány – reprezentativní.
 +
 +Příklady: 
 +  * [[cnk:czesl-plain|Korpus CzeSL-plain]]
 +  * [[cnk:ksk-dopisy|Korpus soukromé korespondence KSK]]
 +  * [[cnk:link|Korpus LINK]]
 +  * [[cnk:orwell|Korpus ORWELL]]
 +
 +==== Související odkazy ====
  
 +<WRAP round box 49%>
 +[[pojmy:struktura_korpusu|Struktura korpusu]] • [[pojmy:atributy_strukturni|Strukturní atributy]] • [[cnk:struktura|Korpusy ČNK]] • [[pojmy:referencni|Referenční korpusy]]
 +</WRAP>