Korpus současné poezie

Korpus FicTree je syntakticky anotovaný korpus současné české beletrie, obsahující 135 000 slov (166 000 tokenů). Syntaktická anotace textu byla provedena manuálně. Korpus je také manuálně lemmatizovaný a tagovaný.

Název		KSP
Pozice	Počet pozic (tokenů)	42 435 867
	Počet pozic (tokenů) bez interpunkce	35 506 057
	Počet slovních tvarů (wordů)	900 203
	Počet lemmat	378 233
	Rok zveřejnění	2022

Složení korpusu FicTree

Korpus FicTree se skládá z osmi prozaických děl z žánru beletrie vydaných v České republice mezi lety 1991 a 2007. Šest z těchto literárních děl se (dle klasifikace textů podle žánrů používané v ČNK do r. 2015) považuje za „čistou“ beletrii, jedno dílo se řadí k memoárům, jedno dílo spadá do žánru „literatura pro děti a mládež“. Pět textů (80% tokenů) jsou původní české texty, dva texty jsou překlady z němčiny, jeden je překlad ze slovenštiny.

Syntaktická anotace korpusu

Korpus FicTree byl označkován podle analytické roviny Pražského závislostního korpusu - PDT (PDT 2.0 s revizemi 2.5 a 3.0). Korpus byl automaticky syntakticky označkován pomocí dvou různých parserů (MST Parser a MaltParser), výsledky syntaktické anotace byly „manuálně“ opraveny anotátory, rozdíly mezi dvěma verzemi opravené anotace pak posuzoval další anotátor. Podobně se postupovalo u anotace morfologické a u lemmatizace.

Zpřístupnění korpusu

Korpus FicTree je zpřístupněn několika způsoby:

Korpus ČNK v rozhraní KonText: FicTree je zpřístupněn jako samostatný korpus ČNK v rozhraní KonText.
Data anotovaná podle PDT: data korpusu FicTree anotovaná podle PDT je možné stáhnout také z úložiště LINDAT/CLARIN (pro nekomerční účely).
Data anotovaná ve standardu Universal Dependencies: data korpusu FicTree anotovaná ve standardu Universal Dependencies, kam byla automaticky konvertována a přes webové stránky projektu také zpřístupněna (pro nekomerční účely).

1. Korpus ČNK v rozhraní KonText

Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní KonText.

Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v Pražském závislostním korpusu a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů tag a lemma zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky pozičním atributům pos a case.

Syntaktická anotace korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz shrnutí):

afun – syntaktická funkce podle analytické roviny PDT
parent – relativní pozice tokenu, na němž je daný token (přímo) závislý
eparent – relativní pozice nejbližšího plnovýznamového tokenu, na němž je daný token (přímo či nepřímo) závislý
prep – u jmen řízených předložkou uvádí lemma předložky
p_lemma, p_tag, ep_lemma, ep_tag – tag a lemma řídícího tokenu
p_pos, p_case, ep_pos, ep_case – slovní druh a pád řídícího tokenu
p_afun, ep_afun – syntaktická funkce řídícího tokenu

2. Data anotovaná podle PDT

Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři LINDAT/CLARIN v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), přičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: lemma, tag, ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce (afun podle formalismu PDT). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru.

3. Data anotovaná ve standardu Universal Dependencies

Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty Treex. Data jsou zveřejněna přes webové rozhraní Universal Dependencies. Data jsou ve formátu CONLL-U, původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu analytické roviny PDT). Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní PML-TQ.

Poděkování

Autoři by rádi poděkovali kolegům, kteří ke zdárnému dokončení KSP opakovaně přispěli cennou radou a nezištnou pomocí: Michalu Křenovi, Václavu Cvrčkovi, Petru Plecháčovi a Robertu Kolárovi. Nemenší poděkování si zaslouží naši anotátoři z řad studentů FF UK: Šárka Kadavá, Jan Musil, Ondřej Pavlík, Milan Pavlovič, Martin Šplíchal, Lukáš Tomášek a Štěpán Truhlařík.

KSP vzniká s podporou z Akademické prémie udělené Akademií věd ČR prof. Pavlu Janouškovi. Děkujeme!

Jak citovat korpus KSP

Škrabal, M. – Piorecký, K. – Procházka, P. – Jeziorský, T.: Korpus současné poezie, verze 1.0 z 29. 6. 2022. Ústav Českého národního korpusu FF UK – Ústav pro českou literaturu AV ČR, v. v. i., Praha 2022. Dostupný z WWW http://www.korpus.cz

Piorecký, K. – Škrabal, M.: Vícejazyčnost v současné české poezii. Několik úvodních postřehů z korpusové perspektivy. Slovenská literatura 6/2020, s. 568–583.

Škrabal, M. – Piorecký, K.: The Corpus of Contemporary Czech Poetry: A database for research on contemporary poetic language across media. Digital Scholarship in the Humanities XX/2022, s. 1–14. https://doi.org/10.1093/llc/fqac013

Historie: • link • ortofon • lestrepublicain • lists • eebo • tag • hotko • net • skript2012-prepis • ksp