Nastavení

Toto je starší verze dokumentu!


Seznamy značek, slov, nástrojů a zdrojů

V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.

Přehledy hodnot atributů

Hodnoty pozičních atributů

Seznam pozičních atributů je k dispozici na zvláštní stránce. Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot.

Morfologická anotace
Syntaktická a frazémová anotace
  • syntaktické značky (atributy afun, p_afun, ep_afun, parent, eparent, p_tag, p_lemma, ep_tag, ep_lemma, p_pos, p_case, ep_pos, ep_case, prep)
  • frazémové značky (atributy col_lemma, col_type)
Anotace různých transkripčních vrstev v mluvených korpusech
Tokenizace a lemmatizace v aktuálních korpusech

Hodnoty strukturních atributů

Strukturní atributy v korpusech řady SYN

Strukturní atributy jsou popsány na zvláštní stránce. Zde jsou uvedeny pouze atributy se standardizovanými hodnotami.

Strukturní atributy v korpusech řady ORAL

Strukturní atributy dostupné v korpusech řady ORAL jsou popsány na zvláštní stránce.

Ostatní přehledy

Zvláštní znaky

Zdrojové texty korpusů

  • seznamy zdrojových textů
    synchronních korpusů (SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN) a
    diachronních korpusů (Diakorp verze 5 a verze 6, Diakon do r. 1989)

Seznamy slov z publikovaných korpusů

Abecední a retrográdní slovníky

Z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.

Srovnávací frekvenční seznamy

Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.

Další frekvenční seznamy jsou k dispozici v aplikaci Lists.

Databáze slovních tvarů a lemmat doložených v korpusech ČNK

V aplikaci KorpusDB je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol.

Pravidla pro přepis

Korpusové nástroje