Seznamy zdrojů a zkratek

V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.

Zkratky a kódy

Poziční atributy:

morfologické značky (tagy)
syntaktické značky
- atributy afun, p_afun, ep_afun a jejich hodnoty
- atributy parent a eparent
- atributy p_tag, p_lemma, ep_tag, ep_lemma, p_pos, p_case, ep_pos, ep_case
- atribut prep
poziční atributy specifické pro mluvené korpusy: fon, ort/dial, uid
frazémová anotace (col_lemma, col_type)

Strukturní atributy:

Ostatní:

přehled entit použitých v korpusech ČNK

Zdrojové texty psaných korpusů

Seznamy ve formátu OpenOffice.org a MS Excel obsahují kompletní výčet opusů ve všech korpusech. Ke každému textu v korpusu jsou v tabulce uvedeny následující údaje:

id - jednoznačný identifikátor textu
autor - autor nebo autoři textu (je-li tato informace dostupná)
nazev - název díla, případně číslo periodika
rokvyd - rok vydání díla (nemusí být nutně prvním vydáním)
srclang - zdrojový jazyk
txtype_group - skupina textových typů
txtype - textový typ (seznam zkratek)
genre - tematická oblast (seznam zkratek)
med - médium textu (seznam zkratek)
korpus - původní zařazení textu do jednoho z referenčních korpusů SYN2000, SYN2005, SYN2006PUB, SYN2009PUB nebo SYN2010
délka - celkový počet pozic v daném textu¹⁾

Korpus	Formát OOo Calc	Formát MS Excel
SYN2000	ods	xls
SYN2005	ods	xls
SYN2006PUB	ods	xls
SYN2009PUB	ods	xls
SYN2010	ods	xls
SYN	ods	xls

Zdrojové texty diachronních korpusů

Korpus	Formát OOo Calc	Formát MS Excel
Diakorp verze 5	ods	xlsx
Diakorp verze 6	ods	xlsx
Diakon do r. 1989²⁾	ods	xlsx

Popis verzí korpusových nástrojů

Přehled verzí rozhraní KonText

Metainformace v korpusech řady ORAL

Metainformace (strukturní atributy) dostupné v korpusech řady ORAL jsou popsané zde včetně hodnot, kterých mohou nabývat.

Pravidla pro přepis

Abecední a retrográdní slovníky

Z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.

Srovnávací frekvenční seznamy

Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.

Nástroje pro tagování a lemmatizaci

Nástroje pro tagování a lemmatizaci různých jazyků, které se užívají mj. v rámci paralelního korpusu InterCorp, shrnuje následující přehled.

Seznamy pro tokenizaci a lemmatizaci

Seznamy slov, s jejichž pomocí se tokenizují a lemmatizují slovní tvary v korpusu SYN2020.

Korpusy ČNK • Kurz práce s korpusem • Manuál korpusového rozhraní • Základní pojmy korpusové lingvistiky

¹⁾

Údaje v tabulce se od počtů, které udává korpusový manažer, mohou drobně lišit.

²⁾

Poznámka: Technická datace uvedená v tabulkách u korpusu Diakon odpovídá převážně roku vydání, u starých textů s nejistou datací a u textů z několikaletého časového rozmezí je vybrán jeden zástupný rok. Značná část textů byla do korpusu zařazena z jejich novějších edic, a po pravopisné stránce se může odchylovat od původního znění textu. Korpus Diakon tedy není spolehlivou základnou pro zkoumání vývoje pravopisu.

Historie: • index