Korpus současné poezie

Jedná se, jak už název napovídá, o korpus současných básnických textů české provenience vymezené lety 1990 a 2020, tj. reprezentativní vzorek tuzemského básnictví za poslední tři dekády. Co je podstatné, tento vzorek zahrnuje nejen texty oficiálně knižně vydané, a tedy i prošlé klasickým edičním procesem, ale i tvorbu amatérskou, koncentrovanou především na tzv. literární servery. Toto metodologické rozhodnutí není dáno snahou o jakousi demokratizaci poezie; věříme, že bez webových textů by obraz současné české poezie nebyl úplný, postihoval by pouze jeden její – co do proporce dosti malý (viz níže tabulka 2) – segment . To by neodpovídalo realitě (tudíž by šlo i o vědeckou nepoctivost), kdy literární servery sehrály v českém literárním kontextu významnou roli (Piorecký 2016), mj. jako platforma pro publikační začátky některých dnes již etablovaných básníků. Tato základní dichotomie nám mimochodem otevírá možnost oba módy, v KSP rozlišované pomocí atributu doc.medium (print vs. web), vzájemně konfrontovat a srovnávat.

Název		KSP
Pozice	Počet pozic (tokenů)	42 435 867
	Počet pozic (tokenů) bez interpunkce	35 506 057
	Počet slovních tvarů (wordů)	900 203
	Počet lemmat	378 233
	Rok zveřejnění	2022

Složení korpusu FicTree

Začněme tedy od subkorpusu tištěné poezie: ten zahrnuje celkem 10 790 básní (strukturní atribut <div2>) z 256 básnických sbírek (<doc>) od 146 autorů (<doc.author>) a jeho celková velikost činí 927 802 textových slov (včetně interpunkce jde o 1 068 370 textových pozic). Básnické knihy byly postupně naskenovány, digitalizovány pomocí technologie OCR a převedeny do standardního formátu xml, prošly též kontrolou a ručním značkováním: bylo především zapotřebí označit začátky a konce jednotlivých básní či oddílů sbírky, ke sbírkám doplnit metadata aj.

Pro účely webové složky KSP byl stažen výchozí datový materiál o velikosti 37,8 milionu slov v bezmála půl milionu textů (celkem 374 MB). Ten je následně zapotřebí vyčistit, a to nejprve globálně (níže popsanou dvojicí filtrů), a posléze jednotlivé básnické texty zbavit nežádoucího obsahu, který není součástí básně, ale webové šablony (záhlaví, zápatí, navigační odkazy, případně i reklama aj.) a negativně by ovlivnil frekvenční statistiky. Takto bylo odfiltrováno cca 11 % textů. Údaje o velikosti zdrojových dat shrnuje následující tabulka:

Nejprve aplikujeme prozaický filtr. Ačkoliv jsme z daných serverů stahovali pouze texty z relevantních rubrik, celkem často se tu objevují vedle básní také prózy – a zdaleka ne jen básně v próze. Tyto texty musíme pochopitelně také odfiltrovat, aby nezkreslovaly metrickou statistiku. Prozaické texty detekujeme na základě průměrné délky řádku: ta nesmí být vyšší než 10 slov (min. délka řádku je pak logicky 1), zároveň nesmí být nejdelší řádek delší než 20 slov. Jinými slovy: pokud je průměrná délka menší nebo rovna 10 slov na verš a maximální délka verše je 20 slov, jedná se o poezii; v opačném případě text zahazujeme. Takto bylo odfiltrováno cca 6,1 % textů.

Dále je nutno vyloučit plně cizojazyčné texty. Na rozdíl např. od výše zmíněné básně W. Heinrichové Vec tyto texty do KSP nezahrnujeme. Báseň Vec nelze z dané básnické sbírky (a tudíž ani z KSP) vyřadit, neboť by tím utrpěla celistvost sbírky. Oproti tomu básně na literárních serverech vstupují do komunikace jako jednotliviny. K detekci nečeských textů je možné využít různé jazykové filtry, opírající se o specifické dvou- až tříznakové sekvence pro ten který jazyk – takto byly odhaleny četné jinojazyčné texty: nejčastěji slovenské, méně pak anglické či německé, polské a ruské.

Po aplikaci obou výše uvedených filtrů bylo z výchozího datasetu vyřazeno přes 54 tisíc nevyhovujících textů, tedy necelých 11 %. Souhrnný aktuální objem webové složky KSP tak činí více než 442 tisíc básní čítajících přes 34 milionů slov (podrobněji výše v tabulce 2). Nelze však vyloučit další redukci webových dat na základě podrobnější heuristiky; zapotřebí budou ještě alespoň namátkové manuální kontroly, které odhalí problematické případy (včetně potenciálních duplicit), jež by v KSP být neměly. Všechna naše výše popsaná rozhodnutí jsou do značné míry arbitrární, a jako taková se mohou při finální fázi výstavby KSP změnit.

Anotace korpusu

Tagset jsme s minimálními úpravami přejali ze staršího projektu Korpus českého verše (Plecháč – Kolár 2015, viz též http://versologie.cz/v2/web_content/tagset.php?lang=cz). Mimoto byl KSP otagován standardními nástroji ČNK.

Zpřístupnění korpusu

Korpus FicTree je zpřístupněn několika způsoby:

Korpus ČNK v rozhraní KonText: FicTree je zpřístupněn jako samostatný korpus ČNK v rozhraní KonText.
Data anotovaná podle PDT: data korpusu FicTree anotovaná podle PDT je možné stáhnout také z úložiště LINDAT/CLARIN (pro nekomerční účely).
Data anotovaná ve standardu Universal Dependencies: data korpusu FicTree anotovaná ve standardu Universal Dependencies, kam byla automaticky konvertována a přes webové stránky projektu také zpřístupněna (pro nekomerční účely).

1. Korpus ČNK v rozhraní KonText

Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní KonText.

Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v Pražském závislostním korpusu a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů tag a lemma zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky pozičním atributům pos a case.

Syntaktická anotace korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz shrnutí):

afun – syntaktická funkce podle analytické roviny PDT
parent – relativní pozice tokenu, na němž je daný token (přímo) závislý
eparent – relativní pozice nejbližšího plnovýznamového tokenu, na němž je daný token (přímo či nepřímo) závislý
prep – u jmen řízených předložkou uvádí lemma předložky
p_lemma, p_tag, ep_lemma, ep_tag – tag a lemma řídícího tokenu
p_pos, p_case, ep_pos, ep_case – slovní druh a pád řídícího tokenu
p_afun, ep_afun – syntaktická funkce řídícího tokenu

2. Data anotovaná podle PDT

Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři LINDAT/CLARIN v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), přičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: lemma, tag, ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce (afun podle formalismu PDT). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru.

3. Data anotovaná ve standardu Universal Dependencies

Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty Treex. Data jsou zveřejněna přes webové rozhraní Universal Dependencies. Data jsou ve formátu CONLL-U, původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu analytické roviny PDT). Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní PML-TQ.

Poděkování

Autoři by rádi poděkovali kolegům, kteří ke zdárnému dokončení KSP opakovaně přispěli cennou radou a nezištnou pomocí: Michalu Křenovi, Václavu Cvrčkovi, Petru Plecháčovi a Robertu Kolárovi. Nemenší poděkování si zaslouží naši anotátoři z řad studentů FF UK: Šárka Kadavá, Jan Musil, Ondřej Pavlík, Milan Pavlovič, Martin Šplíchal, Lukáš Tomášek a Štěpán Truhlařík.

KSP vzniká s podporou z Akademické prémie udělené Akademií věd ČR prof. Pavlu Janouškovi. Děkujeme!

Jak citovat korpus KSP

Škrabal, M. – Piorecký, K. – Procházka, P. – Jeziorský, T.: Korpus současné poezie, verze 1.0 z 29. 6. 2022. Ústav Českého národního korpusu FF UK – Ústav pro českou literaturu AV ČR, v. v. i., Praha 2022. Dostupný z WWW http://www.korpus.cz

Piorecký, K. – Škrabal, M.: Vícejazyčnost v současné české poezii. Několik úvodních postřehů z korpusové perspektivy. Slovenská literatura 6/2020, s. 568–583.

Škrabal, M. – Piorecký, K.: The Corpus of Contemporary Czech Poetry: A database for research on contemporary poetic language across media. Digital Scholarship in the Humanities XX/2022, s. 1–14. https://doi.org/10.1093/llc/fqac013

Historie: • aibrown • eebo • jerome • lestrepublicain • uvod • hotko • net • kolokace • onomos • ksp