AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Seznamy zdrojů a zkratek

V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.

Zkratky a kódy

Zdrojové texty psaných korpusů

Seznamy ve formátu OpenOffice.org a MS Excel obsahují kompletní výčet opusů ve všech korpusech. Ke každému textu v korpusu jsou v tabulce uvedeny následující údaje:

Korpus Formát OOo Calc Formát MS Excel
SYN2000 ods xls
SYN2005 ods xls
SYN2006PUB ods xls
SYN2009PUB ods xls
SYN2010 ods xls
SYN ods xls

Zdrojové texty diachronních korpusů

Korpus Formát OOo Calc Formát MS Excel
Diakorp verze 5 ods xlsx
Diakorp verze 6 ods xlsx
Diakon do r. 19892) ods xlsx

Popis verzí korpusových nástrojů

Metainformace v korpusech řady ORAL

Metainformace (strukturní atributy) dostupné v korpusech řady ORAL jsou popsané zde včetně hodnot, kterých mohou nabývat.

Pravidla pro přepis

Abecední a retrográdní slovníky

Z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.

Srovnávací frekvenční seznamy

Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.

Nástroje pro tagování a lemmatizaci

Nástroje pro tagování a lemmatizaci různých jazyků, které se užívají mj. v rámci paralelního korpusu InterCorp, shrnuje následující přehled.

Seznamy pro tokenizaci a lemmatizaci

Seznamy slov, s jejichž pomocí se tokenizují a lemmatizují slovní tvary v korpusu SYN2020.


1)
Údaje v tabulce se od počtů, které udává korpusový manažer, mohou drobně lišit.
2)
Poznámka: Technická datace uvedená v tabulkách u korpusu Diakon odpovídá převážně roku vydání, u starých textů s nejistou datací a u textů z několikaletého časového rozmezí je vybrán jeden zástupný rok. Značná část textů byla do korpusu zařazena z jejich novějších edic, a po pravopisné stránce se může odchylovat od původního znění textu. Korpus Diakon tedy není spolehlivou základnou pro zkoumání vývoje pravopisu.