Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
seznamy:index [2020/12/23 15:59] – [Nástroje pro tagování a lemmatizaci] jankrivan | seznamy:index [2022/09/29 14:10] (aktuální) – [Korpusové nástroje] skryt odkaz * [[seznamy:tagery|Přehled nástrojů pro tagování a lemmatizaci různých jazyků]], které se užívají mj. v rámci paralelního korpusu [[cnk:intercorp|InterCorp]]. jankrivan |
---|
====== Seznamy zdrojů a zkratek ====== | ====== Seznamy značek, slov, nástrojů a zdrojů ====== |
| |
V této sekci jsou k dispozici různé seznamy pro práci s [[cnk:uvod|korpusy ČNK]]. | V této sekci jsou k dispozici různé seznamy pro práci s [[cnk:uvod|korpusy ČNK]]. |
| |
===== Zkratky a kódy ===== | ===== Přehledy hodnot atributů ===== |
| |
**Poziční atributy**: | ==== Hodnoty pozičních atributů == |
| |
* [[seznamy:tagy|morfologické značky (tagy)]] | Seznam pozičních atributů je k dispozici na [[pojmy:atributy_pozicni|zvláštní stránce]]. |
* [[seznamy:syntakticke_znacky|syntaktické značky]] | |
* atributy [[seznamy:afun|afun, p_afun, ep_afun]] a jejich hodnoty | |
* atributy [[seznamy:parent|parent]] a [[seznamy:eparent|eparent]] | |
* atributy [[seznamy:p_tag|p_tag, p_lemma, ep_tag, ep_lemma]], p_pos, p_case, ep_pos, ep_case | |
* atribut [[seznamy:prep|prep]] | |
* [[seznamy:mluvene_atributy|poziční atributy specifické pro mluvené korpusy]]: fon, ort/dial, uid | |
* [[seznamy:frazemy|frazémová anotace]] (''col_lemma'', ''col_type'') | |
| |
**Strukturní atributy**: | Zde jsou podrobně popsány atributy, které nabývají standardizovaných nebo zvláštních hodnot: |
| |
* [[seznamy:txtype_group|hodnoty strukturního atributu txtype_group (skupina textových typů)]] | == Morfologická anotace == |
* [[seznamy:txtype|hodnoty strukturního atributu txtype (textový typ)]] | |
* [[seznamy:genre_group|hodnoty strukturního atributu genre_group (skupina oborů)]] | |
* [[seznamy:genre|hodnoty strukturního atributu genre (tematická oblast)]] | |
* [[seznamy:srclang|hodnoty strukturního atributu srclang (zdrojový jazyk)]] | |
* [[seznamy:med|hodnoty strukturního atributu med (médium)]] | |
* [[seznamy:periodicity|hodnoty strukturního atributu periodicity (periodicita)]] | |
* [[seznamy:audience|hodnoty strukturního atributu audience (adresát)]] | |
* [[seznamy:authsex-transsex|hodnoty strukturního atributu authsex a transsex (pohlaví autora a překladatele)]] | |
* [[seznamy:section|hodnoty strukturního atributu section (rubrika)]] | |
| |
**Ostatní**: | * [[seznamy:tagy|morfologické značky]] (atribut ''tag'') |
| * [[seznamy:verbtagy|značky gramatických kategorií slovesa]] (atribut ''verbtag'') |
| |
* [[přehled entit použitých v korpusech ČNK]] | == Syntaktická a frazémová anotace == |
| |
===== Zdrojové texty psaných korpusů ===== | * [[seznamy:syntakticke_znacky|syntaktické značky]] (atributy [[seznamy:afun|afun, p_afun, ep_afun]], [[seznamy:parent|parent]], [[seznamy:eparent|eparent]], [[seznamy:p_tag|p_tag, p_lemma, ep_tag, ep_lemma]], [[seznamy:prep|prep]]) |
| * [[seznamy:frazemy|frazémové značky]] (atributy ''col_lemma'', ''col_type'') |
| |
Seznamy ve formátu OpenOffice.org a MS Excel obsahují kompletní výčet opusů ve všech korpusech. Ke každému textu v korpusu jsou v tabulce uvedeny následující údaje: | == Anotace různých transkripčních vrstev v mluvených korpusech == |
| |
* **[[pojmy:struktura_korpusu|id]]** - jednoznačný identifikátor textu | * [[seznamy:mluvene_atributy|značky transkripčních vrstev]] (atributy ''fon'', ''ort'', ''dial'', ''uid'') |
* **autor** - autor nebo autoři textu (je-li tato informace dostupná) | |
* **nazev** - název díla, případně číslo periodika | |
* **rokvyd** - rok vydání díla (nemusí být nutně prvním vydáním) | |
* **[[pojmy:srclang|srclang]]** - zdrojový jazyk | |
* **[[pojmy:txtype_group|txtype_group]]** - skupina textových typů | |
* **[[pojmy:txtype|txtype]]** - textový typ ([[seznamy:txtype|seznam zkratek]]) | |
* **[[pojmy:genre|genre]]** - tematická oblast ([[seznamy:genre|seznam zkratek]]) | |
* **[[pojmy:medium|med]]** - médium textu ([[seznamy:med|seznam zkratek]]) | |
* **[[cnk:syn|korpus]]** - původní zařazení textu do jednoho z referenčních korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2009pub|SYN2009PUB]] nebo [[cnk:syn2010|SYN2010]] | |
* **délka** - celkový počet [[pojmy:pozice|pozic]] v daném textu((Údaje v tabulce se od počtů, které udává korpusový manažer, mohou drobně lišit.)) | |
| |
| == Tokenizace a lemmatizace v aktuálních korpusech == |
| |
^ Korpus ^ Formát OOo Calc ^ Formát MS Excel ^ | * [[cnk:syn2020:tokenizace|tokenizace numerických a interpunkčních znaků v korpusu SYN2020]] (má vliv zejména na atribut ''word'') |
| [[cnk:syn2000|SYN2000]] | {{:seznamy:syn2000.ods|ods}} | {{:seznamy:syn2000.xls|xls}} | | * [[cnk:syn2020:lemmatizace|variantní lemmata v korpusu SYN2020]] (atributy ''lemma'', ''sublemma'') |
| [[cnk:syn2005|SYN2005]] | {{:seznamy:syn2005.ods|ods}} | {{:seznamy:syn2005.xls|xls}} | | |
| [[cnk:syn2006pub|SYN2006PUB]] | {{:seznamy:syn2006pub.ods|ods}} | {{:seznamy:syn2006pub.xls|xls}} | | |
| [[cnk:syn2009pub|SYN2009PUB]] | {{:seznamy:syn2009pub.ods|ods}} | {{:seznamy:syn2009pub.xls|xls}} | | |
| [[cnk:syn2010|SYN2010]] | {{:seznamy:syn2010.ods|ods}} | {{:seznamy:syn2010.xls|xls}} | | |
| [[cnk:syn|SYN]] | {{:seznamy:syn.ods|ods}} | {{:seznamy:syn.xls|xls}} | | |
| |
===== Zdrojové texty diachronních korpusů ===== | ==== Hodnoty strukturních atributů ==== |
| |
^ Korpus ^ Formát OOo Calc ^ Formát MS Excel ^ | Strukturní atributy a jejich role ve struktuře korpusů jsou vysvětleny na [[pojmy:atributy_strukturni|zvláštní stránce]]. |
| Diakorp verze 5 | {{:seznamy:diakorp.ods|ods}} | {{:seznamy:diakorp.xlsx|xlsx}} | | |
| Diakorp verze 6 | {{:seznamy:diakorp6.ods|ods}} | {{:seznamy:diakorp6.xlsx|xlsx}} | | |
| Diakon do r. 1989((Poznámka: Technická datace uvedená v tabulkách u korpusu Diakon odpovídá převážně roku vydání, u starých textů s nejistou datací a u textů z několikaletého časového rozmezí je vybrán jeden zástupný rok. Značná část textů byla do korpusu zařazena z jejich novějších edic, a po pravopisné stránce se může odchylovat od původního znění textu. Korpus Diakon tedy není spolehlivou základnou pro zkoumání vývoje pravopisu.)) | {{:seznamy:diakon.ods|ods}} | {{:seznamy:diakon.xlsx|xlsx}} | | |
| |
| == Strukturní atributy v korpusech řady SYN == |
| |
===== Popis verzí korpusových nástrojů ===== | Strukturní atributy korpusů řady SYN jsou popsány na stránce |
| |
* [[seznamy:kontext_verze|Přehled verzí rozhraní KonText]] | * [[seznamy:strukturni_atributy_syn|struktury a strukturní atributy korpusů řady SYN]] |
| |
===== Metainformace v korpusech řady ORAL ===== | Atributy se standardizovanými hodnotami jsou dále probrány na zvláštních stránkách: |
| |
Metainformace (strukturní atributy) dostupné v korpusech řady ORAL jsou popsané [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|zde]] včetně hodnot, kterých mohou nabývat. | * [[seznamy:txtype_group|skupina textových typů]] (atribut ''txtype_group'') |
| * [[seznamy:txtype|textový typ]] (atribut ''txtype'') |
| * [[seznamy:genre_group|skupina oborů]] (atribut ''genre_group'') |
| * [[seznamy:genre|tematická oblast]] (atribut ''genre'') |
| |
===== Pravidla pro přepis ===== | * [[seznamy:srclang|zdrojový jazyk]] (atribut ''srclang'') |
| |
* [[seznamy:pravidla_ksk|Sběr a přepis dopisů - KSK]] | * [[seznamy:med|médium]] (atribut ''med'') |
* [[cnk:zasady_pro_prepis_vyucovacich_hodin|Sběr nahrávek vyučovacích hodin -- zásady pro přepis]] | * [[seznamy:periodicity|periodicita]] (atribut ''periodicity'') |
* [[seznamy:pravidla_2006|Pravidla přepisu Oral2006]] | |
* [[seznamy:pravidla_2008|Pravidla přepisu Oral2008]] | * [[seznamy:authsex-transsex|pohlaví autora a překladatele]] (atributy ''authsex'', ''transsex'') |
* {{:cnk:prepisovaci_pravidla_oral2013.pdf|Pravidla přepisu Oral2013}} | * [[seznamy:audience|adresát]] (atribut ''audience'') |
===== Abecední a retrográdní slovníky ===== | |
| * [[seznamy:section|rubrika]] (atribut ''section'') |
| |
| |
| == Strukturní atributy v mluvených korpusech == |
| |
| Strukturní atributy dostupné v korpusech řad ORTOFON, ORAL, ORATOR a DIALEKT jsou popsány na stránce |
| |
| * [[seznamy:strukturni_atributy_mluvene|struktury a strukturní atributy mluvených korpusů]] |
| |
| == Strukturní atributy v paralelních korpusech == |
| |
| Strukturní atributy dostupné v korpusech řady InterCorp jsou popsány na stránce |
| |
| * [[seznamy:strukturni_atributy_intercorp|struktury a strukturní atributy korpusů InterCorp]] |
| |
| |
| ===== Ostatní přehledy ===== |
| |
| ==== Zvláštní znaky ==== |
| |
| * [[seznamy:přehled entit použitých v korpusech ČNK]] |
| |
| ==== Zdrojové texty korpusů ==== |
| |
| * [[seznamy:zdrojove_texty_korpusu|seznamy zdrojových textů]] synchronních korpusů (SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN) a diachronních korpusů (Diakorp verze 5 a verze 6, Diakon do r. 1989) |
| |
| ==== Seznamy slov z publikovaných korpusů ==== |
| |
| == Abecední a retrográdní slovníky == |
| |
Z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsme vytvořili [[seznamy:abc_seznamy|seznamy slovních tvarů a lemmat]] setříděné podle abecedy. | Z korpusů [[cnk:syn2000|SYN2000]], [[cnk:syn2005|SYN2005]], [[cnk:syn2010|SYN2010]] a [[cnk:syn2015|SYN2015]] jsme vytvořili [[seznamy:abc_seznamy|seznamy slovních tvarů a lemmat]] setříděné podle abecedy. |
| |
===== Srovnávací frekvenční seznamy ===== | == Srovnávací frekvenční seznamy == |
| |
Reprezentativní korpusy [[cnk:syn|řady SYN]] představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili [[seznamy:srovnavaci_seznamy|srovnávací seznamy]]. | Reprezentativní korpusy [[cnk:syn|řady SYN]] představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili [[seznamy:srovnavaci_seznamy|srovnávací seznamy]]. |
| |
===== Nástroje pro tagování a lemmatizaci ===== | Další frekvenční seznamy jsou k dispozici v aplikaci [[manualy:lists|Lists]]. |
| |
Nástroje pro tagování a lemmatizaci různých jazyků, které se užívají mj. v rámci paralelního korpusu [[cnk:intercorp|InterCorp]], shrnuje následující [[seznamy:tagery|přehled]]. | == Databáze slovních tvarů a lemmat doložených v korpusech ČNK == |
| |
| V aplikaci [[manualy:korpusdb|KorpusDB]] je uložena databáze všech rozpoznaných slovních tvarů lemmat, které se reálně vyskytují v některém ze zpracovaných korpusů ČNK: SYN v8 (současná psaná čeština), ORAL v1 a ORTOFON v1 (současná mluvená čeština), DIAKORP v6 a nezveřejněný korpus textů 19. stol. |
| |
===== Seznamy pro tokenizaci a lemmatizaci ===== | == Seznamy SYN2020 == |
| |
[[cnk:syn2020:seznamy|Seznamy slov]], s jejichž pomocí se tokenizují a lemmatizují slovní tvary v korpusu [[cnk:syn2020|SYN2020]]. | [[cnk:syn2020:seznamy|Seznamy slov]] použité při anotaci korpusu [[cnk:syn2020|SYN2020]]. |
| |
---- | ==== Pravidla pro přepis ==== |
| |
| * [[seznamy:pravidla_ksk|Sběr a přepis dopisů]] (korpus KSK) |
| * [[cnk:zasady_pro_prepis_vyucovacich_hodin|Sběr nahrávek vyučovacích hodin a zásady pro přepis]] (korpus SCHOLA2010) |
| * [[seznamy:pravidla_2006|Pravidla přepisu]] (korpus Oral2006) |
| * [[seznamy:pravidla_2008|Pravidla přepisu]] (korpus Oral2008) |
| * {{:cnk:prepisovaci_pravidla_oral2013.pdf|Pravidla přepisu}} (korpus Oral2013) |
| |
| ==== Korpusové nástroje ==== |
| |
| * [[seznamy:kontext_verze|Přehled verzí rozhraní KonText]] |
| |
| ---- |
| |
<WRAP center round box 51%> | <WRAP center round box 51%> |