AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:index [2015/12/17 09:58] – [Zkratky a kódy] Lucie Chlumskaseznamy:index [2022/09/29 14:10] (aktuální) – [Korpusové nástroje] skryt odkaz * [[seznamy:tagery|Přehled nástrojů pro tagování a lemmatizaci různých jazyků]], které se užívají mj. v rámci paralelního korpusu [[cnk:intercorp|InterCorp]]. Jan Křivan
Řádek 1: Řádek 1:
-====== Seznamy zdrojů a zkratek ======+====== Seznamy značek, slov, nástrojů a zdrojů ======
  
 V této sekci jsou k dispozici různé seznamy pro práci s [[cnk:uvod|korpusy ČNK]]. V této sekci jsou k dispozici různé seznamy pro práci s [[cnk:uvod|korpusy ČNK]].
  
-===== Zkratky a kódy =====+===== Přehledy hodnot atributů =====
  
-  * [[seznamy:tagy|Morfologické značky - tagy]] +==== Hodnoty pozičních atributů ==
-  * [[seznamy:syntakticke_znacky|Syntaktické značky]] +
-    * Atributy [[seznamy:afun|afun, p_afun, ep_afun]] a jejich hodnoty +
-    * Atributy [[seznamy:parent|parent]] a [[seznamy:eparent|eparent]] +
-    * Atributy [[seznamy:p_tag|p_tag, p_lemma, ep_tag, ep_lemma]], p_pos, p_case, ep_pos, ep_case +
-    * Atribut [[seznamy:prep|prep]] +
-  * [[seznamy:txtype|hodnoty strukturního atributu txtype]] +
-  * [[seznamy:genre_group|hodnoty strukturního atributu genre_group]] +
-  * [[seznamy:genre|hodnoty strukturního atributu genre]] +
-  * [[seznamy:srclang|hodnoty strukturního atributu srclang (zdrojový jazyk)]] +
-  * [[seznamy:med|hodnoty strukturního atributu med (médium)]] +
-  * [[přehled entit použitých v korpusech ČNK]]+
  
-===== Zdrojové texty psaných korpusů =====+Seznam pozičních atributů je k dispozici na [[pojmy:atributy_pozicni|zvláštní stránce]].
  
-Seznamy ve formátu OpenOffice.org a MS Excel obsahují kompletní výčet opusů ve všech korpusech. Ke každému textu v korpusu jsou v tabulce uvedeny následující údaje+Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot:
  
-  * **[[pojmy:struktura_korpusu|id]]** - jednoznačný identifikátor textu +== Morfologická anotace ==
-  * **autor** - autor nebo autoři textu (je-li to informace zjistitelná) +
-  * **nazev** - název díla, příp. číslo časopisu/novin +
-  * **rokvyd** - rok vydání díla (nemusí být nutně první vydání) +
-  * **[[pojmy:srclang|srclang]]** - zdrojový jazyk +
-  * **[[pojmy:txtype_group|txtype_group]]** - textová skupina +
-  * **[[pojmy:txtype|txtype]]** - textový typ ([[seznamy:txtype|seznam zkratek]]) +
-  * **[[pojmy:genre|genre]]** - žánr/odborná oblast ([[seznamy:genre|seznam zkratek]]) +
-  * **[[pojmy:medium|med]]** - medium textu ([[seznamy:med|seznam zkratek]]) +
-  * **[[cnk:syn|Korpus]]** - původní zařazení textu do jednoho z referenčních korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]] nebo [[cnk:syn2010|SYN2010]] +
-  * **Délka** - celkový počet [[pojmy:pozice|pozic]] v daném textu((Údaje v tabulce se od počtů, které udává korpusový manažer, můžou v drobnostech lišit.))+
  
 +  * [[seznamy:tagy|morfologické značky]] (atribut ''tag'')
 +  * [[seznamy:verbtagy|značky gramatických kategorií slovesa]] (atribut ''verbtag'')
  
-^  Korpus  ^  Formát OOo Calc ^  Formát MS Excel  ^ +== Syntaktická a frazémová anotace ==
-| [[cnk:syn2000|SYN2000]] |  {{:seznamy:syn2000.ods|ods}}  |  {{:seznamy:syn2000.xls|xls}} +
-| [[cnk:syn2005|SYN2005]] |  {{:seznamy:syn2005.ods|ods}}  |  {{:seznamy:syn2005.xls|xls}} +
-| [[cnk:syn2006pub|SYN2006PUB]] |  {{:seznamy:syn2006pub.ods|ods}}  |  {{:seznamy:syn2006pub.xls|xls}} +
-| [[cnk:syn2009pub|SYN2009PUB]] |  {{:seznamy:syn2009pub.ods|ods}}  |  {{:seznamy:syn2009pub.xls|xls}} +
-| [[cnk:syn2010|SYN2010]] |  {{:seznamy:syn2010.ods|ods}}  |  {{:seznamy:syn2010.xls|xls}} +
-| [[cnk:syn|SYN]] |  {{:seznamy:syn.ods|ods}}  |  {{:seznamy:syn.xls|xls}}  |+
  
-===== Zdrojové texty diachronních korpusů =====+  * [[seznamy:syntakticke_znacky|syntaktické značky]] (atributy [[seznamy:afun|afun, p_afun, ep_afun]], [[seznamy:parent|parent]], [[seznamy:eparent|eparent]], [[seznamy:p_tag|p_tag, p_lemma, ep_tag, ep_lemma]], [[seznamy:prep|prep]]) 
 +  * [[seznamy:frazemy|frazémové značky]] (atributy ''col_lemma'', ''col_type'')
  
-^  Korpus  ^  Formát OOo Calc ^  Formát MS Excel  ^ +== Anotace různých transkripčních vrstev v mluvených korpusech ==
-| Diakorp verze 5 |  {{:seznamy:diakorp.ods|ods}}  |  {{:seznamy:diakorp.xlsx|xlsx}} +
-| Diakorp verze 6 |  {{:seznamy:diakorp6.ods|ods}}  |  {{:seznamy:diakorp6.xlsx|xlsx}} +
-| Diakon do r. 1989 |  {{:seznamy:diakon.ods|ods}}  |  {{:seznamy:diakon.xlsx|xlsx}}  |+
  
 +  * [[seznamy:mluvene_atributy|značky transkripčních vrstev]] (atributy ''fon'', ''ort'', ''dial'', ''uid'')
  
 +== Tokenizace a lemmatizace v aktuálních korpusech ==
  
-===== Metainformace korpusech řady ORAL =====+  * [[cnk:syn2020:tokenizace|tokenizace numerických a interpunkčních znaků korpusu SYN2020]] (má vliv zejména na atribut ''word''
 +  * [[cnk:syn2020:lemmatizace|variantní lemmata v korpusu SYN2020]] (atributy ''lemma'', ''sublemma'')
  
-Metainformace (strukturní atributy) dostupné v korpusech řady ORAL jsou popsané [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|zde]] včetně hodnot, kterých mohou nabývat. +==== Hodnoty strukturních atributů ====
-===== Pravidla pro přepis mluvených korpusů =====+
  
-FIXME+Strukturní atributy a jejich role ve struktuře korpusů jsou vysvětleny na [[pojmy:atributy_strukturni|zvláštní stránce]].
  
-  * [[seznamy:pravidlaprepis2013|pravidla pro přepis korpusu ORAL2013]] +== Strukturní atributy v korpusech řady SYN ==
-  * [[seznamy:pravidlaprepis2008|pravidla pro přepis korpusu ORAL2008]] +
-  * [[seznamy:pravidlaprepis2006|pravidla pro přepis korpusu ORAL2006]] +
-  * [[seznamy:pravidlaprepisbmk|pravidla pro přepis korpusu BMK]] +
-  * [[seznamy:pravidlaprepispmk|pravidla pro přepis korpusu PMK]]+
  
-  * [[sociolingvistické značky korpusu ORAL2013]] +Strukturní atributy korpusů řady SYN jsou popsány na stránce
-  * [[sociolingvistické značky korpusu ORAL2008]] +
-  * [[sociolingvistické značky korpusu ORAL2006]] +
-  * [[sociolingvistické značky korpusu PMK]] +
-  * [[sociolingvistické značky korpusu BMK]]+
  
-  * [[Statistiky ke korpusu SCHOLA2010]] +  * [[seznamy:strukturni_atributy_syn|struktury a strukturní atributy korpusů řady SYN]]
-  * [[Značky užité v korpusu SCHOLA2010]]+
  
-===== Další pravidla =====+Atributy se standardizovanými hodnotami jsou dále probrány na zvláštních stránkách:
  
-  * [[seznamy:pravidla_ksk|Sběr a přepis dopisů - KSK]]+  * [[seznamy:txtype_group|skupina textových typů]] (atribut ''txtype_group''
 +  * [[seznamy:txtype|textový typ]] (atribut ''txtype''
 +  * [[seznamy:genre_group|skupina oborů]] (atribut ''genre_group''
 +  * [[seznamy:genre|tematická oblast]] (atribut ''genre'')
  
 +  * [[seznamy:srclang|zdrojový jazyk]] (atribut ''srclang'')
  
-===== Abecední a retrográdní slovníky =====+  * [[seznamy:med|médium]] (atribut ''med''
 +  * [[seznamy:periodicity|periodicita]] (atribut ''periodicity'')
  
-Z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]] [[cnk:syn2010|SYN2010]] jsme vytvořili [[seznamy:abc_seznamy|seznamy slovních tvarů a lemmat]] setříděné podle abecedy.+  * [[seznamy:authsex-transsex|pohlaví autora a překladatele]] (atributy ''authsex'', ''transsex''
 +  * [[seznamy:audience|adresát]] (atribut ''audience''
 + 
 +  * [[seznamy:section|rubrika]] (atribut ''section''
 + 
 + 
 +== Strukturní atributy v mluvených korpusech == 
 + 
 +Strukturní atributy dostupné v korpusech řad ORTOFON, ORAL, ORATOR a DIALEKT jsou popsány na stránce 
 + 
 +  * [[seznamy:strukturni_atributy_mluvene|struktury a strukturní atributy mluvených korpusů]] 
 + 
 +== Strukturní atributy v paralelních korpusech == 
 + 
 +Strukturní atributy dostupné v korpusech řady InterCorp jsou popsány na stránce  
 + 
 +  * [[seznamy:strukturni_atributy_intercorp|struktury a strukturní atributy korpusů InterCorp]] 
 + 
 + 
 +===== Ostatní přehledy ===== 
 + 
 +==== Zvláštní znaky ==== 
 + 
 +  * [[seznamy:přehled entit použitých v korpusech ČNK]] 
 + 
 +==== Zdrojové texty korpusů ==== 
 + 
 +  * [[seznamy:zdrojove_texty_korpusu|seznamy zdrojových textů]] synchronních korpusů (SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN) a diachronních korpusů (Diakorp verze 5 a verze 6, Diakon do r. 1989) 
 + 
 +==== Seznamy slov z publikovaných korpusů ==== 
 + 
 +== Abecední a retrográdní slovníky == 
 + 
 +Z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]][[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsme vytvořili [[seznamy:abc_seznamy|seznamy slovních tvarů a lemmat]] setříděné podle abecedy.
      
-===== Srovnávací frekvenční seznamy =====+== Srovnávací frekvenční seznamy ==
  
 Reprezentativní korpusy [[cnk:syn|řady SYN]] představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili [[seznamy:srovnavaci_seznamy|srovnávací seznamy]]. Reprezentativní korpusy [[cnk:syn|řady SYN]] představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili [[seznamy:srovnavaci_seznamy|srovnávací seznamy]].
  
-===== Nástroje pro tagování a lemmatizaci =====+Další frekvenční seznamy jsou k dispozici v aplikaci [[manualy:lists|Lists]].
  
-Nástroje pro tagování lemmatizaci různých jazyků, které se užívají mj. rámci paralelního korpusu [[cnk:intercorp|InterCorp]], shrnuje následující [[seznamy:tagery|přehled]].+== Databáze slovních tvarů lemmat doložených korpusech ČNK ==
  
-----+V aplikaci [[manualy:korpusdb|KorpusDB]] je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol.
  
 +== Seznamy SYN2020 ==
 +
 +[[cnk:syn2020:seznamy|Seznamy slov]] použité při anotaci korpusu [[cnk:syn2020|SYN2020]].
 +
 +==== Pravidla pro přepis ====
 +
 +  * [[seznamy:pravidla_ksk|Sběr a přepis dopisů]] (korpus KSK)
 +  * [[cnk:zasady_pro_prepis_vyucovacich_hodin|Sběr nahrávek vyučovacích hodin a zásady pro přepis]] (korpus SCHOLA2010)
 +  * [[seznamy:pravidla_2006|Pravidla přepisu]] (korpus Oral2006)
 +  * [[seznamy:pravidla_2008|Pravidla přepisu]] (korpus Oral2008)
 +  * {{:cnk:prepisovaci_pravidla_oral2013.pdf|Pravidla přepisu}} (korpus Oral2013)
 +
 +==== Korpusové nástroje ====
 +
 +  * [[seznamy:kontext_verze|Přehled verzí rozhraní KonText]]
 +
 +----
  
 <WRAP center round box 51%> <WRAP center round box 51%>