Toto je starší verze dokumentu!
Obsah
Seznamy značek, slov, nástrojů a zdrojů
V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.
Přehledy hodnot atributů
Hodnoty pozičních atributů
Seznam pozičních atributů je k dispozici na stránce
Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot:
Morfologická anotace
- morfologické značky (atribut
tag
) - značky gramatických kategorií slovesa (atribut
verbtag
)
Syntaktická a frazémová anotace
Anotace různých transkripčních vrstev v mluvených korpusech
Tokenizace a lemmatizace v aktuálních korpusech
- tokenizace numerických a interpunkčních znaků v korpusu SYN2020 (má vliv zejména na atribut
word
)
Hodnoty strukturních atributů
Strukturní atributy v korpusech řady SYN
Strukturní atributy korpusů řady SYN jsou popsány na stránce
Atributy se standardizovanými hodnotami jsou dále probrány na zvláštních stránkách:
- skupina textových typů (atribut
txtype_group
) - textový typ (atribut
txtype
) - skupina oborů (atribut
genre_group
) - tematická oblast (atribut
genre
)
- zdrojový jazyk (atribut
srclang
)
- médium (atribut
med
) - periodicita (atribut
periodicity
)
- adresát (atribut
audience
)
- rubrika (atribut
section
)
Strukturní atributy v mluvených korpusech
Strukturní atributy dostupné v korpusech řad ORTOFON, ORAL, ORATOR a DIALEKT jsou popsány na stránce
Strukturní atributy v paralelních korpusech
Strukturní atributy dostupné v korpusech řady InterCorp jsou popsány na stránce
Ostatní přehledy
Zvláštní znaky
Zdrojové texty korpusů
- seznamy zdrojových textů synchronních korpusů (SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN) a diachronních korpusů (Diakorp verze 5 a verze 6, Diakon do r. 1989)
Seznamy slov z publikovaných korpusů
Abecední a retrográdní slovníky
Z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.
Srovnávací frekvenční seznamy
Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.
Další frekvenční seznamy jsou k dispozici v aplikaci Lists.
Databáze slovních tvarů a lemmat doložených v korpusech ČNK
V aplikaci KorpusDB je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol.
Seznamy SYN2020
Seznamy slov použité při anotaci korpusu SYN2020.
Pravidla pro přepis
- Sběr a přepis dopisů (korpus KSK)
- Sběr nahrávek vyučovacích hodin a zásady pro přepis (korpus SCHOLA2010)
- Pravidla přepisu (korpus Oral2006)
- Pravidla přepisu (korpus Oral2008)
- Pravidla přepisu (korpus Oral2013)
Korpusové nástroje
- Přehled nástrojů pro tagování a lemmatizaci různých jazyků, které se užívají mj. v rámci paralelního korpusu InterCorp.