====== Seznamy značek, slov, nástrojů a zdrojů ======

V této sekci jsou k dispozici různé seznamy pro práci s [[cnk:uvod|korpusy ČNK]].

===== Přehledy hodnot atributů =====

==== Hodnoty pozičních atributů ==

Seznam pozičních atributů je k dispozici na [[pojmy:atributy_pozicni|zvláštní stránce]].

Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot:

== Morfologická anotace ==

  * [[seznamy:tagy|morfologické značky]] (atribut ''tag'')
  * [[seznamy:verbtagy|značky gramatických kategorií slovesa]] (atribut ''verbtag'')

== Syntaktická anotace a anotace víceslovných lexikálních jednotek ==

  * [[seznamy:syntakticke_znacky|syntaktické značky]] (atributy [[seznamy:afun|afun, p_afun, ep_afun]], [[seznamy:parent|parent]], [[seznamy:eparent|eparent]], [[seznamy:ord|ord]], [[seznamy:prep|prep]], [[seznamy:p_tag|atributy odvozené od řídících tokenů]])
  * [[seznamy:mwe|značky víceslovných lexikálních jednotek]] <fs x-small>databáze LEMUR</fs> (atributy ''mwe_lemma'', ''mwe_tag'')
  * [[seznamy:frazemy|dřívější značky víceslovných lexikálních jednotek]] <fs x-small>nástroj FRANTA</fs> (atributy ''col_lemma'', ''col_type'')

== Anotace různých transkripčních vrstev v mluvených korpusech ==

  * [[seznamy:mluvene_atributy|značky transkripčních vrstev]] (atributy ''fon'', ''ort'', ''dial'', ''uid'')

== Tokenizace a lemmatizace v korpusech ==

  * [[cnk:syn2020:tokenizace|tokenizace numerických a interpunkčních znaků v korpusu SYN2020]] (má vliv zejména na atribut ''word'')
  * [[cnk:syn2020:lemmatizace|variantní lemmata v korpusu SYN2020]] (atributy ''lemma'', ''sublemma'')

==== Hodnoty strukturních atributů ====

Strukturní atributy a jejich role ve struktuře korpusů jsou vysvětleny na [[pojmy:atributy_strukturni|zvláštní stránce]].

== Strukturní atributy v korpusech řady SYN ==

Strukturní atributy korpusů řady SYN jsou popsány na stránce

  * [[seznamy:strukturni_atributy_syn|struktury a strukturní atributy korpusů řady SYN]]

Atributy se standardizovanými hodnotami jsou dále probrány na zvláštních stránkách:

  * [[seznamy:txtype_group|skupina textových typů]] (atribut ''txtype_group'')
  * [[seznamy:txtype|textový typ]] (atribut ''txtype'')
  * [[seznamy:genre_group|skupina oborů]] (atribut ''genre_group'')
  * [[seznamy:genre|tematická oblast]] (atribut ''genre'')

  * [[seznamy:srclang|zdrojový jazyk]] (atribut ''srclang'')

  * [[seznamy:med|médium]] (atribut ''med'')
  * [[seznamy:periodicity|periodicita]] (atribut ''periodicity'')

  * [[seznamy:authsex-transsex|pohlaví autora a překladatele]] (atributy ''authsex'', ''transsex'')
  * [[seznamy:audience|adresát]] (atribut ''audience'')

  * [[seznamy:section|rubrika]] (atribut ''section'')


== Strukturní atributy v mluvených korpusech ==

Strukturní atributy dostupné v korpusech řad ORTOFON, ORAL, ORATOR a DIALEKT jsou popsány na stránce

  * [[seznamy:strukturni_atributy_mluvene|struktury a strukturní atributy mluvených korpusů]]

== Strukturní atributy v paralelních korpusech ==

Strukturní atributy dostupné v korpusech řady InterCorp jsou popsány na stránce 

  * [[seznamy:strukturni_atributy_intercorp|struktury a strukturní atributy korpusů InterCorp]]


===== Ostatní přehledy =====

==== Zvláštní znaky ====

  * [[seznamy:přehled entit použitých v korpusech ČNK]]

==== Zdrojové texty korpusů ====

  * [[seznamy:zdrojove_texty_korpusu|seznamy zdrojových textů]] synchronních korpusů (SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN) a diachronních korpusů (Diakorp verze 5 a verze 6, Diakon do r. 1989)

==== Seznamy slov z publikovaných korpusů ====

== Abecední a retrográdní slovníky ==

Z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsme vytvořili [[seznamy:abc_seznamy|seznamy slovních tvarů a lemmat]] setříděné podle abecedy.
  
== Srovnávací frekvenční seznamy ==

Reprezentativní korpusy [[cnk:syn|řady SYN]] představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili [[seznamy:srovnavaci_seznamy|srovnávací seznamy]].

Další frekvenční seznamy jsou k dispozici v aplikaci [[manualy:lists|Lists]].

== Databáze slovních tvarů a lemmat doložených v korpusech ČNK ==

V aplikaci [[manualy:korpusdb|KorpusDB]] je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol.

== Seznamy SYN2020 ==

[[cnk:syn2020:seznamy|Seznamy slov]] použité při anotaci korpusu [[cnk:syn2020|SYN2020]].

==== Pravidla pro přepis ====

  * [[seznamy:pravidla_ksk|Sběr a přepis dopisů]] (korpus KSK)
  * [[cnk:zasady_pro_prepis_vyucovacich_hodin|Sběr nahrávek vyučovacích hodin a zásady pro přepis]] (korpus SCHOLA2010)
  * [[seznamy:pravidla_2006|Pravidla přepisu]] (korpus Oral2006)
  * [[seznamy:pravidla_2008|Pravidla přepisu]] (korpus Oral2008)
  * {{:cnk:prepisovaci_pravidla_oral2013.pdf|Pravidla přepisu}} (korpus Oral2013)

==== Korpusové nástroje ====

  * [[seznamy:kontext_verze|Přehled verzí rozhraní KonText]]

----

<WRAP center round box 51%>
[[cnk:uvod|Korpusy ČNK]] • [[kurz:uvod|Kurz práce s korpusem]] •
[[manualy:kontext:index|Manuál korpusového rozhraní]] • [[pojmy:prehled_pojmu|Základní pojmy korpusové lingvistiky]] 
</WRAP>