Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
seznamy:index [2022/01/03 17:14] – jankrivan | seznamy:index [2022/09/29 14:10] (aktuální) – [Korpusové nástroje] skryt odkaz * [[seznamy:tagery|Přehled nástrojů pro tagování a lemmatizaci různých jazyků]], které se užívají mj. v rámci paralelního korpusu [[cnk:intercorp|InterCorp]]. jankrivan |
---|
V této sekci jsou k dispozici různé seznamy pro práci s [[cnk:uvod|korpusy ČNK]]. | V této sekci jsou k dispozici různé seznamy pro práci s [[cnk:uvod|korpusy ČNK]]. |
| |
===== Hodnoty pozičních atributů ===== | ===== Přehledy hodnot atributů ===== |
| |
Seznam pozičních atributů je k dispozici na [[pojmy:atributy_pozicni|této stránce]]. Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot. | ==== Hodnoty pozičních atributů == |
| |
==== Morfologická anotace ==== | Seznam pozičních atributů je k dispozici na [[pojmy:atributy_pozicni|zvláštní stránce]]. |
| |
| Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot: |
| |
| == Morfologická anotace == |
| |
* [[seznamy:tagy|morfologické značky]] (atribut ''tag'') | * [[seznamy:tagy|morfologické značky]] (atribut ''tag'') |
* [[seznamy:verbtagy|značky gramatických kategorií slovesa]] (atribut ''verbtag'') | * [[seznamy:verbtagy|značky gramatických kategorií slovesa]] (atribut ''verbtag'') |
| |
==== Syntaktická a frazémová anotace ==== | == Syntaktická a frazémová anotace == |
| |
* [[seznamy:syntakticke_znacky|syntaktické značky]] (atributy ''afun'', ''p_afun'', ''ep_afun'', ''parent'', ''eparent'', ''p_tag'', ''p_lemma'', ''ep_tag'', ''ep_lemma'', ''p_pos'', ''p_case'', ''ep_pos'', ''ep_case'', ''prep'') | * [[seznamy:syntakticke_znacky|syntaktické značky]] (atributy [[seznamy:afun|afun, p_afun, ep_afun]], [[seznamy:parent|parent]], [[seznamy:eparent|eparent]], [[seznamy:p_tag|p_tag, p_lemma, ep_tag, ep_lemma]], [[seznamy:prep|prep]]) |
* [[seznamy:frazemy|frazémové značky]] (atributy ''col_lemma'', ''col_type'') | * [[seznamy:frazemy|frazémové značky]] (atributy ''col_lemma'', ''col_type'') |
| |
==== Anotace různých transkripčních vrstev v mluvených korpusech ==== | == Anotace různých transkripčních vrstev v mluvených korpusech == |
| |
* [[seznamy:mluvene_atributy|značky transkripčních vrstev]] (atributy ''fon'', ''ort'', ''dial'', ''uid'') | * [[seznamy:mluvene_atributy|značky transkripčních vrstev]] (atributy ''fon'', ''ort'', ''dial'', ''uid'') |
| |
===== Tokenizace a lemmatizace v aktuálních korpusech ===== | == Tokenizace a lemmatizace v aktuálních korpusech == |
| |
* [[cnk:syn2020:tokenizace|tokenizace numerických a interpunkčních znaků v korpusu SYN2020]] | * [[cnk:syn2020:tokenizace|tokenizace numerických a interpunkčních znaků v korpusu SYN2020]] (má vliv zejména na atribut ''word'') |
* [[cnk:syn2020:lemmatizace|variantní lemmata v korpusu SYN2020]] (atributy ''lemma'', ''sublemma'') | * [[cnk:syn2020:lemmatizace|variantní lemmata v korpusu SYN2020]] (atributy ''lemma'', ''sublemma'') |
| |
===== Hodnoty strukturních atributů ===== | ==== Hodnoty strukturních atributů ==== |
| |
==== Strukturní atributy v korpusech řady SYN ==== | Strukturní atributy a jejich role ve struktuře korpusů jsou vysvětleny na [[pojmy:atributy_strukturni|zvláštní stránce]]. |
| |
Strukturní atributy jsou popsány na [[pojmy:atributy_strukturni#strukturni_atributy_u_korpusu_rady_syn|zvláštní stránce]]. Zde jsou uvedeny pouze atributy se standardizovanými hodnotami. | == Strukturní atributy v korpusech řady SYN == |
| |
| Strukturní atributy korpusů řady SYN jsou popsány na stránce |
| |
| * [[seznamy:strukturni_atributy_syn|struktury a strukturní atributy korpusů řady SYN]] |
| |
| Atributy se standardizovanými hodnotami jsou dále probrány na zvláštních stránkách: |
| |
* [[seznamy:txtype_group|skupina textových typů]] (atribut ''txtype_group'') | * [[seznamy:txtype_group|skupina textových typů]] (atribut ''txtype_group'') |
* [[seznamy:section|rubrika]] (atribut ''section'') | * [[seznamy:section|rubrika]] (atribut ''section'') |
| |
==== Strukturní atributy v korpusech řady ORAL ==== | |
| |
Strukturní atributy dostupné v korpusech řady ORAL jsou popsány na [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|zvláštní stránce]]. | == Strukturní atributy v mluvených korpusech == |
| |
===== Zvláštní znaky ===== | Strukturní atributy dostupné v korpusech řad ORTOFON, ORAL, ORATOR a DIALEKT jsou popsány na stránce |
| |
| * [[seznamy:strukturni_atributy_mluvene|struktury a strukturní atributy mluvených korpusů]] |
| |
| == Strukturní atributy v paralelních korpusech == |
| |
| Strukturní atributy dostupné v korpusech řady InterCorp jsou popsány na stránce |
| |
| * [[seznamy:strukturni_atributy_intercorp|struktury a strukturní atributy korpusů InterCorp]] |
| |
| |
| ===== Ostatní přehledy ===== |
| |
| ==== Zvláštní znaky ==== |
| |
* [[seznamy:přehled entit použitých v korpusech ČNK]] | * [[seznamy:přehled entit použitých v korpusech ČNK]] |
| |
===== Zdrojové texty korpusů ===== | ==== Zdrojové texty korpusů ==== |
| |
* [[seznamy:zdrojove_texty_korpusu|seznamy zdrojových textů]]\\ synchronních korpusů (SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN) a\\ diachronních korpusů (Diakorp verze 5 a verze 6, Diakon do r. 1989) | * [[seznamy:zdrojove_texty_korpusu|seznamy zdrojových textů]] synchronních korpusů (SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN) a diachronních korpusů (Diakorp verze 5 a verze 6, Diakon do r. 1989) |
| |
===== Seznamy slov z publikovaných korpusů ===== | ==== Seznamy slov z publikovaných korpusů ==== |
| |
==== Abecední a retrográdní slovníky ==== | == Abecední a retrográdní slovníky == |
| |
Z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsme vytvořili [[seznamy:abc_seznamy|seznamy slovních tvarů a lemmat]] setříděné podle abecedy. | Z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsme vytvořili [[seznamy:abc_seznamy|seznamy slovních tvarů a lemmat]] setříděné podle abecedy. |
| |
==== Srovnávací frekvenční seznamy ==== | == Srovnávací frekvenční seznamy == |
| |
Reprezentativní korpusy [[cnk:syn|řady SYN]] představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili [[seznamy:srovnavaci_seznamy|srovnávací seznamy]]. | Reprezentativní korpusy [[cnk:syn|řady SYN]] představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili [[seznamy:srovnavaci_seznamy|srovnávací seznamy]]. |
Další frekvenční seznamy jsou k dispozici v aplikaci [[manualy:lists|Lists]]. | Další frekvenční seznamy jsou k dispozici v aplikaci [[manualy:lists|Lists]]. |
| |
==== Databáze slovních tvarů a lemmat doložených v korpusech ČNK ==== | == Databáze slovních tvarů a lemmat doložených v korpusech ČNK == |
| |
V aplikaci [[manualy:korpusdb|KorpusDB]] je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol. | V aplikaci [[manualy:korpusdb|KorpusDB]] je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol. |
| |
===== Pravidla pro přepis ===== | == Seznamy SYN2020 == |
| |
| [[cnk:syn2020:seznamy|Seznamy slov]] použité při anotaci korpusu [[cnk:syn2020|SYN2020]]. |
| |
| ==== Pravidla pro přepis ==== |
| |
* [[seznamy:pravidla_ksk|Sběr a přepis dopisů]] (korpus KSK) | * [[seznamy:pravidla_ksk|Sběr a přepis dopisů]] (korpus KSK) |
* {{:cnk:prepisovaci_pravidla_oral2013.pdf|Pravidla přepisu}} (korpus Oral2013) | * {{:cnk:prepisovaci_pravidla_oral2013.pdf|Pravidla přepisu}} (korpus Oral2013) |
| |
===== Korpusové nástroje ===== | ==== Korpusové nástroje ==== |
| |
* [[seznamy:kontext_verze|Přehled verzí rozhraní KonText]] | * [[seznamy:kontext_verze|Přehled verzí rozhraní KonText]] |
* [[seznamy:tagery|Přehled nástrojů pro tagování a lemmatizaci různých jazyků]], které se užívají mj. v rámci paralelního korpusu [[cnk:intercorp|InterCorp]]. | |
| |
---- | ---- |