Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

cnk:fsc2000 [2015/10/22 20:59] (aktuální)
Václav Horký vytvořeno
Řádek 1: Řádek 1:
 +~~NOTOC~~
 +====== Korpus FSC2000 ======
  
 +Korpus FSC2000 je referenčním zdrojem a doplňkem [[http://​ucnk.ff.cuni.cz/​publikace.php#​fsc|Frekvenčního slovníku češtiny]] (FSČ), který vyšel koncem roku 2004 v NLN. Korpus FSC2000 vychází z korpusu [[cnk:​SYN2000]],​ postup jeho vzniku je popsán níže. Jedním z důsledků tohoto postupu je, že texty obsažené v korpusu FSC2000 jsou vlastně podmnožinou textů obsažených v korpusu SYN2000. Přesná velikost korpusu FSC2000 činí bez započtení interpunkce 95 854 929 slovních tvarů; velikost 114 363 813 pozic, udávaná korpusovým manažerem, je údaj zahrnující kromě slovních tvarů i interpunkci.
 +
 +Seznam všech zdrojových textů korpusu FSC2000 naleznete {{:​seznamy:​syn2000.ods|zde}}.
 +
 +Následuje úryvek z předmluvy k FSČ, který popisuje vznik korpusu FSC2000:
 +
 +//1) Z korpusu SYN2000 bylo vyřazeno několik duplicitních textů, a dále byly vypuštěny části, ve kterých převažovaly tabulky, čísla apod. Podobným čištěním prošel sice již původní korpus, v praxi se však ukázalo, že nebylo dostatečně účinné. Přestože se tak korpus o necelých 5 % zmenšil (a tím také došlo k mírnému posunu v jeho reprezentativním složení), jednalo se jednoznačně o velmi prospěšnou změnu, protože se výrazně zvýšila kvalita textů, a tím také věrohodnost poskytovaných frekvenčních údajů.//
 +
 +//2) Na takto pročištěný korpus byla aplikována ve srovnání s korpusem SYN2000 novější verze lemmatizace,​ což je sada programů, které na základě rozsáhlého slovníku a za pomoci statistických metod přiřazují všem výskytům všech slovních tvarů v textu jejich lemma, tj. základní slovníkový tvar.//
 +
 +//3) Výstup této automatické analýzy však byl z mnoha důvodů pro FSČ stále ještě nevyhovující a vyžadoval několik fází velice náročných a zdlouhavých manuálních oprav. Šlo především o nedokonalé rozpoznávání zkratek a proprií (zvláště cizojazyčných),​ dále nevhodně pojaté zpracování některých gramatických jevů (např. negací, pomnožných substantiv atd.), a v neposlední řadě chyby v rozlišování homonymních tvarů. Toto rozlišování (např. zda tvar //bouří// je v daném kontextu sloveso nebo substantivum) nazýváme desambiguace. Protože primárním cílem slovníku je poskytnout uživateli informace o frekvenci slov (nikoli tedy například o jednotlivých tvarech), a s vědomím tohoto cíle byl také korpus jako referenční zdroj FSČ zpracováván,​ nevěnovali jsme se opravě určení lemmat u všech výskytů všech tvarů obsažených v korpusu tak, aby lemma bylo vždy určeno bezchybně. Důvodem byla samozřejmě enormní časová, a tedy i finanční náročnost takových oprav. Naším cílem bylo "​pouze"​ zajistit, aby frekvence udávané u jednotlivých hesel ve FSČ byly správné (s určitou možnou malou chybou, jak bude vysvětleno dále), přičemž jsme zanedbávali jednotlivosti s minimálním vlivem na celkovou frekvenci hesla, které by bylo neúměrně pracné opravovat. Znamená to, že při podrobné prohlídce tvarů, které byly započítány pod určité heslo, je možné v korpusu narazit i na tvary, které pod daným heslem sice zahrnuty být neměly, přesto jsme však jejich zařazení neopravovali. Pod heslem pes jsou tak například započítány všechny výskyty tvaru //PES//, ačkoliv jde v některých případech o zkratku pro polyester, palubní elektronický systém, Pacifickou Exportní Společnost z Čapkovy Války s mloky aj. Protože ale všechny tyto zkratky dohromady tvoří pouze 0,2 % celkové frekvence hesla pes, můžeme je zanedbat, aniž bychom výrazně ovlivnili frekvenci hesla. Uvědomujeme si, že jsme přes veškerou snahu a pečlivost při zpracování slovníku mohli v jednotlivých případech přehlédnout i podstatnější chyby nebo nepřesnosti. Je však třeba zdůraznit, že tak velké množství dat není v žádném případě možné zpracovávat pouze manuálně, takže i když je v současné době každá automatická lemmatizace nedokonalá,​ je nezbytné ji použít alespoň jako základ pro pozdější korekci.//
 +
 +Po všech těchto úpravách byl tedy na základě textů, obsažených již v korpusu [[cnk:​SYN2000]],​ vytvořen nový korpus FSC2000 s novou [[pojmy:​lemma|lemmatizací]];​ z něj teprve vznikl heslář FSČ. Hlavním přínosem nového korpusu je právě tato jeho vylepšená (stále však nikoli bezchybná!) lemmatizace,​ která přesně odpovídá FSČ. Protože se ale při jejích opravách neopravovaly [[pojmy:​tag|morfologické značky]] (tagy), chybí v korpusu FSC2000 atributy tag a pos. Doufáme, že korpus FSC2000 bude -- zejména díky své lemmatizaci -- užitečným nástrojem pro široký okruh uživatelů.
 +
 +--- //Michal Křen// (vedoucí realizačního týmu, Praha 2004)
 +
 +===== Související odkazy =====
 +
 +<WRAP round box 49%>
 +[[cnk:​syn|SYN]] • [[cnk:​SYN2000]] • [[cnk:​SYN2005|SYN2005]] • [[cnk:​syn2006pub|SYN2006PUB]] • [[cnk:​syn2009pub|SYN2009PUB]] • [[cnk:​SYN2010|SYN2010]] • [[cnk:​SYN2013PUB|SYN2013PUB]]
 +</​WRAP>​