AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Seznamy zdrojů a zkratek

V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.

Zkratky a kódy

Zdrojové texty psaných korpusů

Seznamy ve formátu OpenOffice.org a MS Excel obsahují kompletní výčet opusů ve všech korpusech. Ke každému textu v korpusu jsou v tabulce uvedeny následující údaje:

Korpus Formát OOo Calc Formát MS Excel
SYN2000 ods xls
SYN2005 ods xls
SYN2006PUB ods xls
SYN2009PUB ods xls
SYN2010 ods xls
SYN ods xls

Metainformace v korpusech řady ORAL

Metainformace (strukturní atributy) dostupné v korpusech řady ORAL jsou popsané zde včetně hodnot, kterých mohou nabývat.

Pravidla pro přepis mluvených korpusů

Další pravidla

Abecední a retrográdní slovníky

Z korpusů SYN2000, SYN2005 a SYN2010 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.

Srovnávací frekvenční seznamy

Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.

Nástroje pro tagování a lemmatizaci

Nástroje pro tagování a lemmatizaci různých jazyků, které se užívají mj. v rámci paralelního korpusu InterCorp, shrnuje následující přehled.


1)
Údaje v tabulce se od počtů, které udává korpusový manažer, můžou v drobnostech lišit.