Obsah

Seznamy značek, slov, nástrojů a zdrojů
- Přehledy hodnot atributů
  - Hodnoty pozičních atributů
  - Hodnoty strukturních atributů
- Ostatní přehledy

Seznamy značek, slov, nástrojů a zdrojů

V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.

Přehledy hodnot atributů

Hodnoty pozičních atributů

Seznam pozičních atributů je k dispozici na zvláštní stránce.

Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot:

Morfologická anotace

morfologické značky (atribut tag)
značky gramatických kategorií slovesa (atribut verbtag)

Syntaktická anotace a anotace víceslovných lexikálních jednotek

syntaktické značky (atributy afun, p_afun, ep_afun, parent, eparent, ord, prep, atributy odvozené od řídících tokenů)
značky víceslovných lexikálních jednotek databáze LEMUR (atributy mwe_lemma, mwe_tag)
dřívější značky víceslovných lexikálních jednotek nástroj FRANTA (atributy col_lemma, col_type)

Anotace různých transkripčních vrstev v mluvených korpusech

značky transkripčních vrstev (atributy fon, ort, dial, uid)

Tokenizace a lemmatizace v korpusech

tokenizace numerických a interpunkčních znaků v korpusu SYN2020 (má vliv zejména na atribut word)
variantní lemmata v korpusu SYN2020 (atributy lemma, sublemma)

Hodnoty strukturních atributů

Strukturní atributy a jejich role ve struktuře korpusů jsou vysvětleny na zvláštní stránce.

Strukturní atributy v korpusech řady SYN

Strukturní atributy korpusů řady SYN jsou popsány na stránce

struktury a strukturní atributy korpusů řady SYN

Atributy se standardizovanými hodnotami jsou dále probrány na zvláštních stránkách:

skupina textových typů (atribut txtype_group)
textový typ (atribut txtype)
skupina oborů (atribut genre_group)
tematická oblast (atribut genre)

zdrojový jazyk (atribut srclang)

médium (atribut med)
periodicita (atribut periodicity)

pohlaví autora a překladatele (atributy authsex, transsex)
adresát (atribut audience)

rubrika (atribut section)

Strukturní atributy v mluvených korpusech

Strukturní atributy dostupné v korpusech řad ORTOFON, ORAL, ORATOR a DIALEKT jsou popsány na stránce

struktury a strukturní atributy mluvených korpusů

Strukturní atributy v paralelních korpusech

Strukturní atributy dostupné v korpusech řady InterCorp jsou popsány na stránce

struktury a strukturní atributy korpusů InterCorp

Ostatní přehledy

Zvláštní znaky

přehled entit použitých v korpusech ČNK

Zdrojové texty korpusů

seznamy zdrojových textů synchronních korpusů (SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN) a diachronních korpusů (Diakorp verze 5 a verze 6, Diakon do r. 1989)

Seznamy slov z publikovaných korpusů

Abecední a retrográdní slovníky

Z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.

Srovnávací frekvenční seznamy

Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.

Další frekvenční seznamy jsou k dispozici v aplikaci Lists.

Databáze slovních tvarů a lemmat doložených v korpusech ČNK

V aplikaci KorpusDB je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol.

Seznamy SYN2020

Seznamy slov použité při anotaci korpusu SYN2020.

Pravidla pro přepis

Sběr a přepis dopisů (korpus KSK)
Sběr nahrávek vyučovacích hodin a zásady pro přepis (korpus SCHOLA2010)
Pravidla přepisu (korpus Oral2006)
Pravidla přepisu (korpus Oral2008)
Pravidla přepisu (korpus Oral2013)

Korpusové nástroje

Přehled verzí rozhraní KonText

Korpusy ČNK • Kurz práce s korpusem • Manuál korpusového rozhraní • Základní pojmy korpusové lingvistiky