Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
Poslední revize Obě strany příští revize
seznamy:index [2022/01/03 17:14]
Jan Křivan
seznamy:index [2022/01/05 18:06]
Václav Cvrček [Zdrojové texty korpusů]
Řádek 3: Řádek 3:
 V této sekci jsou k dispozici různé seznamy pro práci s [[cnk:uvod|korpusy ČNK]]. V této sekci jsou k dispozici různé seznamy pro práci s [[cnk:uvod|korpusy ČNK]].
  
-===== Hodnoty pozičních atributů =====+===== Přehledy hodnot atributů =====
  
-Seznam pozičních atributů je k dispozici na [[pojmy:atributy_pozicni|této stránce]]. Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot.+==== Hodnoty pozičních atributů ==
  
-==== Morfologická anotace ====+Seznam pozičních atributů je k dispozici na [[pojmy:atributy_pozicni|zvláštní stránce]]. Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot. 
 + 
 +== Morfologická anotace ==
  
   * [[seznamy:tagy|morfologické značky]] (atribut ''tag'')   * [[seznamy:tagy|morfologické značky]] (atribut ''tag'')
   * [[seznamy:verbtagy|značky gramatických kategorií slovesa]] (atribut ''verbtag'')   * [[seznamy:verbtagy|značky gramatických kategorií slovesa]] (atribut ''verbtag'')
  
-==== Syntaktická a frazémová anotace ====+== Syntaktická a frazémová anotace ==
  
-  * [[seznamy:syntakticke_znacky|syntaktické značky]] (atributy ''afun''''p_afun''''ep_afun''''parent''''eparent''''p_tag''''p_lemma''''ep_tag''''ep_lemma''''p_pos'', ''p_case'', ''ep_pos'', ''ep_case'', ''prep'')+  * [[seznamy:syntakticke_znacky|syntaktické značky]] (atributy [[seznamy:afun|afun, p_afun, ep_afun]][[seznamy:parent|parent]][[seznamy:eparent|eparent]][[seznamy:p_tag|p_tag, p_lemma, ep_tag, ep_lemma]][[seznamy:prep|prep]])
   * [[seznamy:frazemy|frazémové značky]] (atributy ''col_lemma'', ''col_type'')   * [[seznamy:frazemy|frazémové značky]] (atributy ''col_lemma'', ''col_type'')
  
-==== Anotace různých transkripčních vrstev v mluvených korpusech ====+== Anotace různých transkripčních vrstev v mluvených korpusech ==
  
   * [[seznamy:mluvene_atributy|značky transkripčních vrstev]] (atributy ''fon'', ''ort'', ''dial'', ''uid'')   * [[seznamy:mluvene_atributy|značky transkripčních vrstev]] (atributy ''fon'', ''ort'', ''dial'', ''uid'')
  
-===== Tokenizace a lemmatizace v aktuálních korpusech =====+== Tokenizace a lemmatizace v aktuálních korpusech ==
  
-  * [[cnk:syn2020:tokenizace|tokenizace numerických a interpunkčních znaků v korpusu SYN2020]]+  * [[cnk:syn2020:tokenizace|tokenizace numerických a interpunkčních znaků v korpusu SYN2020]] (má vliv zejména na atribut ''word'')
   * [[cnk:syn2020:lemmatizace|variantní lemmata v korpusu SYN2020]] (atributy ''lemma'', ''sublemma'')   * [[cnk:syn2020:lemmatizace|variantní lemmata v korpusu SYN2020]] (atributy ''lemma'', ''sublemma'')
  
-===== Hodnoty strukturních atributů =====+==== Hodnoty strukturních atributů ====
  
-==== Strukturní atributy v korpusech řady SYN ====+== Strukturní atributy v korpusech řady SYN ==
  
 Strukturní atributy jsou popsány na [[pojmy:atributy_strukturni#strukturni_atributy_u_korpusu_rady_syn|zvláštní stránce]]. Zde jsou uvedeny pouze atributy se standardizovanými hodnotami. Strukturní atributy jsou popsány na [[pojmy:atributy_strukturni#strukturni_atributy_u_korpusu_rady_syn|zvláštní stránce]]. Zde jsou uvedeny pouze atributy se standardizovanými hodnotami.
Řádek 47: Řádek 49:
   * [[seznamy:section|rubrika]] (atribut ''section'')   * [[seznamy:section|rubrika]] (atribut ''section'')
  
-==== Strukturní atributy v korpusech řady ORAL ====+== Strukturní atributy v korpusech řady ORAL ==
  
 Strukturní atributy dostupné v korpusech řady ORAL jsou popsány na  [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|zvláštní stránce]]. Strukturní atributy dostupné v korpusech řady ORAL jsou popsány na  [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|zvláštní stránce]].
  
-===== Zvláštní znaky =====+===== Ostatní přehledy ===== 
 + 
 +==== Zvláštní znaky ====
  
   * [[seznamy:přehled entit použitých v korpusech ČNK]]   * [[seznamy:přehled entit použitých v korpusech ČNK]]
  
-===== Zdrojové texty korpusů =====+==== Zdrojové texty korpusů ====
  
-  * [[seznamy:zdrojove_texty_korpusu|seznamy zdrojových textů]]\\ synchronních korpusů (SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN) a\\ diachronních korpusů (Diakorp verze 5 a verze 6, Diakon do r. 1989)+  * [[seznamy:zdrojove_texty_korpusu|seznamy zdrojových textů]] synchronních korpusů (SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN) a diachronních korpusů (Diakorp verze 5 a verze 6, Diakon do r. 1989)
  
-===== Seznamy slov z publikovaných korpusů =====+==== Seznamy slov z publikovaných korpusů ====
  
-==== Abecední a retrográdní slovníky ====+== Abecední a retrográdní slovníky ==
  
 Z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsme vytvořili [[seznamy:abc_seznamy|seznamy slovních tvarů a lemmat]] setříděné podle abecedy. Z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsme vytvořili [[seznamy:abc_seznamy|seznamy slovních tvarů a lemmat]] setříděné podle abecedy.
      
-==== Srovnávací frekvenční seznamy ====+== Srovnávací frekvenční seznamy ==
  
 Reprezentativní korpusy [[cnk:syn|řady SYN]] představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili [[seznamy:srovnavaci_seznamy|srovnávací seznamy]]. Reprezentativní korpusy [[cnk:syn|řady SYN]] představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili [[seznamy:srovnavaci_seznamy|srovnávací seznamy]].
Řádek 71: Řádek 75:
 Další frekvenční seznamy jsou k dispozici v aplikaci [[manualy:lists|Lists]]. Další frekvenční seznamy jsou k dispozici v aplikaci [[manualy:lists|Lists]].
  
-==== Databáze slovních tvarů a lemmat doložených v korpusech ČNK ====+== Databáze slovních tvarů a lemmat doložených v korpusech ČNK ==
  
 V aplikaci [[manualy:korpusdb|KorpusDB]] je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol. V aplikaci [[manualy:korpusdb|KorpusDB]] je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol.
  
-===== Pravidla pro přepis =====+== Seznamy SYN2020 == 
 + 
 +[[cnk:syn2020:seznamy|Seznamy slov]] týkají se anotace, které byly vydány ke korpusu [[cnk:syn2020|SYN2020]]. 
 + 
 +==== Pravidla pro přepis ====
  
   * [[seznamy:pravidla_ksk|Sběr a přepis dopisů]] (korpus KSK)   * [[seznamy:pravidla_ksk|Sběr a přepis dopisů]] (korpus KSK)
Řádek 83: Řádek 91:
   * {{:cnk:prepisovaci_pravidla_oral2013.pdf|Pravidla přepisu}} (korpus Oral2013)   * {{:cnk:prepisovaci_pravidla_oral2013.pdf|Pravidla přepisu}} (korpus Oral2013)
  
-===== Korpusové nástroje =====+==== Korpusové nástroje ====
  
   * [[seznamy:kontext_verze|Přehled verzí rozhraní KonText]]   * [[seznamy:kontext_verze|Přehled verzí rozhraní KonText]]