Toto je starší verze dokumentu!
Obsah
Seznamy zdrojů a zkratek
V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.
Zkratky a kódy
Poziční atributy:
-
- atributy afun, p_afun, ep_afun a jejich hodnoty
- atributy p_tag, p_lemma, ep_tag, ep_lemma, p_pos, p_case, ep_pos, ep_case
- atribut prep
- poziční atributy specifické pro mluvené korpusy: fon, ort/dial, uid
Strukturní atributy:
Ostatní:
Zdrojové texty psaných korpusů
Seznamy ve formátu OpenOffice.org a MS Excel obsahují kompletní výčet opusů ve všech korpusech. Ke každému textu v korpusu jsou v tabulce uvedeny následující údaje:
- id - jednoznačný identifikátor textu
- autor - autor nebo autoři textu (je-li tato informace dostupná)
- nazev - název díla, případně číslo periodika
- rokvyd - rok vydání díla (nemusí být nutně prvním vydáním)
- srclang - zdrojový jazyk
- txtype_group - skupina textových typů
- txtype - textový typ (seznam zkratek)
- genre - tematická oblast (seznam zkratek)
- med - médium textu (seznam zkratek)
- korpus - původní zařazení textu do jednoho z referenčních korpusů SYN2000, SYN2005, SYN2006PUB, SYN2009PUB nebo SYN2010
Zdrojové texty diachronních korpusů
Popis verzí korpusových nástrojů
Metainformace v korpusech řady ORAL
Metainformace (strukturní atributy) dostupné v korpusech řady ORAL jsou popsané zde včetně hodnot, kterých mohou nabývat.
Pravidla pro přepis
Abecední a retrográdní slovníky
Z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.
Srovnávací frekvenční seznamy
Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.
Nástroje pro tagování a lemmatizaci
Nástroje pro tagování a lemmatizaci různých jazyků, které se užívají mj. v rámci paralelního korpusu InterCorp, shrnuje následující přehled.
Seznamy pro tokenizaci a lemmatizaci
Seznamy slov, s jejichž pomocí se tokenizují a lemmatizují slovní tvary v korpusu SYN2020.