Nastavení

Seznamy zdrojů a zkratek

V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.

Zkratky a kódy

Zdrojové texty psaných korpusů

Seznamy ve formátu OpenOffice.org a MS Excel obsahují kompletní výčet opusů ve všech korpusech. Ke každému textu v korpusu jsou v tabulce uvedeny následující údaje:

Korpus Formát OOo Calc Formát MS Excel
SYN2000 ods xls
SYN2005 ods xls
SYN2006PUB ods xls
SYN2009PUB ods xls
SYN2010 ods xls
SYN ods xls

Zdrojové texty diachronních korpusů

Korpus Formát OOo Calc Formát MS Excel
Diakorp verze 5 ods xlsx
Diakorp verze 6 ods xlsx
Diakon do r. 1989 ods xlsx

Popis verzí korpusových nástrojů

Metainformace v korpusech řady ORAL

Metainformace (strukturní atributy) dostupné v korpusech řady ORAL jsou popsané zde včetně hodnot, kterých mohou nabývat.

Pravidla pro přepis

Abecední a retrográdní slovníky

Z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.

Srovnávací frekvenční seznamy

Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.

Nástroje pro tagování a lemmatizaci

Nástroje pro tagování a lemmatizaci různých jazyků, které se užívají mj. v rámci paralelního korpusu InterCorp, shrnuje následující přehled.


1) Údaje v tabulce se od počtů, které udává korpusový manažer, mohou drobně lišit.