V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.
Seznam pozičních atributů je k dispozici na zvláštní stránce.
Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot:
tag
)verbtag
)word
)Strukturní atributy a jejich role ve struktuře korpusů jsou vysvětleny na zvláštní stránce.
Strukturní atributy korpusů řady SYN jsou popsány na stránce
Atributy se standardizovanými hodnotami jsou dále probrány na zvláštních stránkách:
txtype_group
)txtype
)genre_group
)genre
)srclang
)med
)periodicity
)audience
)section
)Strukturní atributy dostupné v korpusech řad ORTOFON, ORAL, ORATOR a DIALEKT jsou popsány na stránce
Strukturní atributy dostupné v korpusech řady InterCorp jsou popsány na stránce
Z korpusů SYN2000, SYN2005, SYN2010 a SYN2015 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.
Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.
Další frekvenční seznamy jsou k dispozici v aplikaci Lists.
V aplikaci KorpusDB je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol.
Seznamy slov použité při anotaci korpusu SYN2020.