Toto je starší verze dokumentu!

Korpus FSC2000

Korpus FSC2000 je referenčním zdrojem a doplňkem Frekvenčního slovníku češtiny (FSČ), který vyšel koncem roku 2004 v NLN. Korpus FSC2000 vychází z korpusu SYN2000, postup jeho vzniku je popsán níže. Jedním z důsledků tohoto postupu je, že texty obsažené v korpusu FSC2000 jsou vlastně podmnožinou textů obsažených v korpusu SYN2000. Přesná velikost korpusu FSC2000 činí bez započtení interpunkce 95 854 929 slovních tvarů; velikost 114 363 813 pozic, udávaná korpusovým manažerem, je údaj zahrnující kromě slovních tvarů i interpunkci.

Seznam všech zdrojových textů korpusu FSC2000 naleznete zde.

Následuje úryvek z předmluvy k FSČ, který popisuje vznik korpusu FSC2000:

1) Z korpusu SYN2000 bylo vyřazeno několik duplicitních textů, a dále byly vypuštěny části, ve kterých převažovaly tabulky, čísla apod. Podobným čištěním prošel sice již původní korpus, v praxi se však ukázalo, že nebylo dostatečně účinné. Přestože se tak korpus o necelých 5 % zmenšil (a tím také došlo k mírnému posunu v jeho reprezentativním složení), jednalo se jednoznačně o velmi prospěšnou změnu, protože se výrazně zvýšila kvalita textů, a tím také věrohodnost poskytovaných frekvenčních údajů.

2) Na takto pročištěný korpus byla aplikována ve srovnání s korpusem SYN2000 novější verze lemmatizace, což je sada programů, které na základě rozsáhlého slovníku a za pomoci statistických metod přiřazují všem výskytům všech slovních tvarů v textu jejich lemma, tj. základní slovníkový tvar.

3) Výstup této automatické analýzy však byl z mnoha důvodů pro FSČ stále ještě nevyhovující a vyžadoval několik fází velice náročných a zdlouhavých manuálních oprav. Šlo především o nedokonalé rozpoznávání zkratek a proprií (zvláště cizojazyčných), dále nevhodně pojaté zpracování některých gramatických jevů (např. negací, pomnožných substantiv atd.), a v neposlední řadě chyby v rozlišování homonymních tvarů. Toto rozlišování (např. zda tvar bouří je v daném kontextu sloveso nebo substantivum) nazýváme desambiguace. Protože primárním cílem slovníku je poskytnout uživateli informace o frekvenci slov (nikoli tedy například o jednotlivých tvarech), a s vědomím tohoto cíle byl také korpus jako referenční zdroj FSČ zpracováván, nevěnovali jsme se opravě určení lemmat u všech výskytů všech tvarů obsažených v korpusu tak, aby lemma bylo vždy určeno bezchybně. Důvodem byla samozřejmě enormní časová, a tedy i finanční náročnost takových oprav. Naším cílem bylo „pouze“ zajistit, aby frekvence udávané u jednotlivých hesel ve FSČ byly správné (s určitou možnou malou chybou, jak bude vysvětleno dále), přičemž jsme zanedbávali jednotlivosti s minimálním vlivem na celkovou frekvenci hesla, které by bylo neúměrně pracné opravovat. Znamená to, že při podrobné prohlídce tvarů, které byly započítány pod určité heslo, je možné v korpusu narazit i na tvary, které pod daným heslem sice zahrnuty být neměly, přesto jsme však jejich zařazení neopravovali. Pod heslem pes jsou tak například započítány všechny výskyty tvaru PES, ačkoliv jde v některých případech o zkratku pro polyester, palubní elektronický systém, Pacifickou Exportní Společnost z Čapkovy Války s mloky aj. Protože ale všechny tyto zkratky dohromady tvoří pouze 0,2 % celkové frekvence hesla pes, můžeme je zanedbat, aniž bychom výrazně ovlivnili frekvenci hesla. Uvědomujeme si, že jsme přes veškerou snahu a pečlivost při zpracování slovníku mohli v jednotlivých případech přehlédnout i podstatnější chyby nebo nepřesnosti. Je však třeba zdůraznit, že tak velké množství dat není v žádném případě možné zpracovávat pouze manuálně, takže i když je v současné době každá automatická lemmatizace nedokonalá, je nezbytné ji použít alespoň jako základ pro pozdější korekci.

Po všech těchto úpravách byl tedy na základě textů, obsažených již v korpusu SYN2000, vytvořen nový korpus FSC2000 s novou lemmatizací; z něj teprve vznikl heslář FSČ. Hlavním přínosem nového korpusu je právě tato jeho vylepšená (stále však nikoli bezchybná!) lemmatizace, která přesně odpovídá FSČ. Protože se ale při jejích opravách neopravovaly morfologické značky (tagy), chybí v korpusu FSC2000 atributy tag a pos. Doufáme, že korpus FSC2000 bude – zejména díky své lemmatizaci – užitečným nástrojem pro široký okruh uživatelů.

— Michal Křen (vedoucí realizačního týmu, Praha 2004)