Korpus Koditex

Koditex je synchronní, reprezentativní a referenční korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny.

Název		Koditex
Pozice	Počet pozic (tokenů)	10 880 550
	Počet pozic bez interpunkce	9 139 930
	Počet tokenů bez interpunkce vstupujících do faktorové analýzy (include=„yes“)	9 039 137
	Počet slovních tvarů (wordů)	509 764
	Počet lemmat	205 592
Struktury	Počet textových vzorků <chunk>	3 428
Struktury	Počet vět <s>	719 739
Další informace	Referenční	ANO
	Reprezentativní	ANO
	Rok zveřejnění	2018

Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly lemmatizovány, morfologicky označkovány dvěma různými systémy, dále v nich byly anotovány frazémy a tzv. pojmenované entity – named entities). Z hlediska psanosti a mluvenosti se tak jedná o korpus smíšený.

Název Koditex odkazuje jednak k osobě Viléma Kodýtka, který se jako první pokusil replikovat MDA na češtinu po vzoru D. Bibera, a zároveň je zkratkovým slovem pro korpus diverzifikovaných textů.

Složení korpusu

Na rozdíl od ostatních synchronních korpusů ČNK (např. SYN2015) se Koditex neskládá z celých textů, ale pouze ze vzorků originálních textů, které jsou označeny pomocí struktury <chunk>.

Ještě před samotným vzorkováním shromážděných dat a jejich začleněním do finální podoby korpusu jsme se rozhodli texty přesahující délku 5000 slov rozdělit do souvislých vzorků (chunks) o délce 2000–5000 slov (se zachováním hranic vět). Toto řešení představuje řadu výhod, a to zejména celkově větší rozmanitost korpusu, co se týče jak registrů, tak žánrů / textových typů.

Korpus tvoří texty ze tří komunikačních módů (mode):

psaného jazyka (wri),
mluveného jazyka (spo) a
internetové komunikace (web).

Každý ze tří módů se dále dělí do dvou a více divizí (division; např. v rámci psaného jazyka se jedná o beletrii, oborovou literaturu, noviny a časopisy a soukromou komunikaci). Divize se dále dělí do tříd (class; například kriminální román), s cílovou délkou přibližně 200 000 slov na třídu (v závislosti na dostupnosti dat). Pro psaný mód byl ještě zaveden mezistupeň tzv. nadtřídy (superclass), která seskupuje některé třídy textů.

Texty původně zařazené do korpusu bylo v některých případech třeba z analýzy registrové variability vyloučit. V takovém případě mají v metadatech příznak include=„no“. V podrobné tabulce reflektující složení korpusu Koditex jsou zohledněny pouze texty, které do MDA vstupovaly (tedy s příznakem include=„yes“):

MODE	DIVISION	SUPERCLASS	CLASS	Tokeny	Vzorky
spo (mluvená komunikace)	int (interaktivní)		bru (nepřipravené veřejné / vysílané rozhovory)	221 812	90
			eli (formální rozhovor)	201 690	82
			inf (neformální rozhovor)	208 565	86
	nin (neinteraktivní)		wbs (připravený/čtený projev)	213 201	71
web (internetová komunikace)	mul (mnohosměrná komunikace)		dis (internetové diskuse)†	197 948	87
			fcb (facebookové statusy)†	199 418	91
			for (webová fóra)†	200 104	85
	uni (jednosměrná komunikace)		blo (blogy)	204 356	74
	uni (jednosměrná komunikace)		wik (wikipedie)	201 691	84
wri (psaná komunikace)	fic (beletrie)	nov (romány)	crm (detektivky)	190 026	68
			fan (fantasy)	189 432	69
			gen (bez bližšího určení)	193 667	67
			lov (milostné)	189 893	70
			scf (sci-fi)	188 703	68
			col (povídky)	195 595	70
			scr (scénáře a dramata)	182 689	76
			ver (poezie a písně)	205 837	76
	nfc (oborová literatura)	pop (populárně-naučná)	fts (formální a technické vědy)	207 607	68
			hum (humanitní vědy)	204 837	74
			nat (přírodní vědy)	204 751	71
			ssc (společenské vědy)	203 698	68
		pro (profesní literatura)	fts (formální a technické vědy)	210 010	71
			hum (humanitní vědy)	207 916	69
			nat (přírodní vědy)	209 580	70
			ssc (společenské vědy)	209 385	72
		sci (vědecká literatura)	fts (formální a technické vědy)	202 932	67
			hum (humanitní vědy)	204 300	71
			nat (přírodní vědy)	206 716	72
			ssc (společenské vědy)	205 358	67
			adm (administrativa)*	203 542	82
			enc (encyklopedie)	203 957	73
			mem (auto-/biografie)	203 390	71
	nmg (noviny a časopisy)	lei (volnočasová publicistika)	hou (bydlení, zahrada, hobby)	207 499	68
			int (zajímavosti ze světa)	209 232	69
			lif (životní styl)	203 124	72
			mix (víkendové přílohy)	205 310	75
			sct (bulvár)	201 417	73
			spo (sport)	199 238	70
		new (tradiční publicistika)	com (komentáře)	205 372	68
			cul (kultura)	205 690	68
			eco (ekonomika)	211 481	70
			fre (volnočasové aktivity)	208 532	71
			pol (politika)	206 893	70
			rep (reportáže)	206 377	70
	pri (soukromá komunikace)		cor (dopisy)*	96 366	68
Celkem				9 039 137	3292

* V těchto třídách byly povoleny vzorky o délce minimálně 1000 tokenů.

† Texty v těchto třídách byly nejprve sjednoceny (podle autora a části dne) a poté rozděleny do vzorků o velikosti 2000–5000 slov.

Vzorky

Původním záměrem bylo mít veškeré vzorky o přibližně stejné délce (mezi 2000–5000 slovy). Ukázalo se, že tento záměr byl u některých tříd nerealistický vzhledem k typické délce textů, která v těchto daných třídách bývá kratší. Nabízela se dvě možná řešení. U některých tříd (např. pri či adm) jsme se rozhodli snížit spodní hranici na 1000 slov, což zároveň snížilo vliv textů, které byly v dané kategorii delší, než je obvyklé.

V jiných třídách (např. fcb) se původní data skládala z velkého množství fragmentů, z nichž většina měla délku méně než 1000 slov. V takových případech došlo nejprve ke shlukování textů podle autora a času a teprve pak se přistoupilo k samotnému vzorkování.

Koditex se zaměřuje na současnou podobu jazyka, přičemž nejstarší texty byly publikovány v roce 1990.

U většiny textů (s pokrytím 76 % všech tokenů) zahrnutých v tomto korpusu se jedná o české originály (tedy nikoliv překlady z jiných jazyků). Jedinou výjimkou jsou textové třídy, u kterých je v češtině výskyt přeložených materiálů zcela běžný. Tyto třídy jsou rozepsány v tabulce níže (u zbytku tříd se jedná o 100% české originály).

Class	Překlady (slova)	Originály (slova)	% překladů
LOV	210,250	30,981	87,2 %
CRM	202,921	37,677	84,3 %
GEN	196,924	43,497	81,9 %
FAN	188,848	52,778	78,2 %
SCF	174,340	66,221	72,5 %
MEM	176,000	67,731	72,2 %
HUM	329,928	395,573	45,5 %
NAT	324,310	401,957	44,7 %
ENC	103,954	137,889	43,0 %
SSC	265,640	460,324	36,6 %
FTS	259,325	467,253	35,7 %
VER	82,101	158,634	34,1 %
WIK	49,150	192,765	20,3 %

Anotace

Korpusu bylo přidáno několik anotačních vrstev, aby se usnadnila operacionalizace rysů:

lemmatizace a morfologické značkování; bylo využito dvou systémů: stochastického taggeru MorphoDiTa ¹⁾ a hybridního taggeru s použitím stochastické a na pravidlech založené desambiguace ²⁾
značkování frazémů za pomoci systému FRANTA ³⁾
rozpoznávání pojmenovaných entit za pomoci nástroje NameTag⁴⁾

Následující statistické modely byly použity s nástroji MorphoDiTa a NameTag:

Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-1836
Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8

Ve verzi 2 byla pak v roce 2019 doplněna ve strukturním atributu chunk.register registrová klasifikace jednotlivých chunků.

Zdroje dat

Valná většina dat obsažených v korpusu Koditex pochází ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Martinu Proškovi a Petru Kaderkovi z Ústavu pro jazyk český AV ČR za poskytnutí dat z korpusu DIALOG, Karlu Palovi a Vítu Baisovi z Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě a dále Josefu Šlerkovi a jeho týmu ze Socialinsider za poskytnutí dat pro třídu wik a divizi mul.

Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet:

Benešová, Lucie, Michal Křen & Martina Waclawičová. 2013. ORAL2013.
Benko, Vladimír. 2015. Araneum Bohemicum Maius, version 15.04. ÚČNK FF UK.
Cvrček, Václav, Petr Truneček & Václav Horký. 2015. SPEECHES.
Čermák, František, Ana Adamovičová & Jiří Pešička. 2001. PMK.
Hladká, Zdeňka. 2002. BMK.
Hladká, Zdeňka. 2006. KSK.
Křen, Michal et al. 2015. SYN2015.
Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN ÚFAL MFF UK. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8
Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN ÚFAL MFF UK. http://hdl.handle.net/11234/1-1836
The DIALOG Corpus, version 1.2. 2015. ÚJČ AV ČR. Praha. http://ujc.dialogy.cz
The EUROPARL Corpus (the Proceedings of the European Parliament). http://www.europarl.eu.int/

Jak citovat Koditex

Zasina, A. J. – Lukeš, D. – Komrsková, Z. – Poukarová, P. – Řehořková, A.: Koditex: korpus diverzifikovaných textů. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz

¹⁾

Straková Jana, Milan Straka & Jan Hajič. 2014. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 13–18. Baltimore, MD: ACL.

²⁾

Spoustová, Drahomíra, Jan Hajič, Jan Votrubec, Pavel Krbec & Pavel Květoň. 2007. The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In Proceedings of the Workshop on Balto-Slavonic Natural Language Processing, ACL 2007. 67–74; Jelínek, Tomáš. 2008. Nové značkování v Českém národním korpusu [New tagging in the Czech National Corpus]. Naše řeč 91(1). 13–20; Petkevič, Vladimír. 2014. Problémy automatické morfologické disambiguace češtiny [Problems of automatic morphological disambiguation of Czech]. Naše řeč 97(4). 194–207.

³⁾

Hnátková, Milena. 2002. Značkování frazémů a idiomů v Českém národním korpusu s pomocí Slovníku české frazeologie a idiomatiky [The tagging of phraseological units and idioms in the Czech National Corpus with the aid of the Dictionary of Czech phraseology and idiomatics]. Slovo a slovesnost 63(2). 117–126.

⁴⁾

Straková Jana, Milan Straka & Jan Hajič. 2013. A New State-of-The-Art Czech Named Entity Recognizer. In Ivan Habernal & Václav Matoušek (eds.), Text, Speech and Dialogue, 68–75. Berlin & Heidelberg: Springer Verlag.

Historie: • koditex

Korpus Koditex

Složení korpusu

Vzorky

Anotace

Zdroje dat

Jak citovat Koditex

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence