Toto je starší verze dokumentu!
Obsah
Korpus současné poezie
Jedná se, jak už název napovídá, o korpus současných básnických textů české provenience vymezené lety 1990 a 2020, tj. reprezentativní vzorek tuzemského básnictví za poslední tři dekády. Co je podstatné, tento vzorek zahrnuje nejen texty oficiálně knižně vydané, a tedy i prošlé klasickým edičním procesem, ale i tvorbu amatérskou, koncentrovanou především na tzv. literární servery. Toto metodologické rozhodnutí není dáno snahou o jakousi demokratizaci poezie; věříme, že bez webových textů by obraz současné české poezie nebyl úplný, postihoval by pouze jeden její – co do proporce dosti malý (viz níže tabulka 2) – segment . To by neodpovídalo realitě (tudíž by šlo i o vědeckou nepoctivost), kdy literární servery sehrály v českém literárním kontextu významnou roli (Piorecký 2016), mj. jako platforma pro publikační začátky některých dnes již etablovaných básníků. Tato základní dichotomie nám mimochodem otevírá možnost oba módy, v KSP rozlišované pomocí atributu doc.medium (print vs. web), vzájemně konfrontovat a srovnávat.
Název | KSP | |
---|---|---|
Pozice | Počet pozic (tokenů) | 42 435 867 |
Počet pozic (tokenů) bez interpunkce | 35 506 057 | |
Počet slovních tvarů (wordů) | 900 203 | |
Počet lemmat | 378 233 | |
Rok zveřejnění | 2022 |
Složení korpusu FicTree
Začněme tedy od subkorpusu tištěné poezie: ten zahrnuje celkem 10 790 básní (strukturní atribut <div2>) z 256 básnických sbírek (<doc>) od 146 autorů (<doc.author>) a jeho celková velikost činí 927 802 textových slov (včetně interpunkce jde o 1 068 370 textových pozic). Básnické knihy byly postupně naskenovány, digitalizovány pomocí technologie OCR a převedeny do standardního formátu xml, prošly též kontrolou a ručním značkováním: bylo především zapotřebí označit začátky a konce jednotlivých básní či oddílů sbírky, ke sbírkám doplnit metadata aj.
Pro účely webové složky KSP byl stažen výchozí datový materiál o velikosti 37,8 milionu slov v bezmála půl milionu textů (celkem 374 MB). Ten je následně zapotřebí vyčistit, a to nejprve globálně (níže popsanou dvojicí filtrů), a posléze jednotlivé básnické texty zbavit nežádoucího obsahu, který není součástí básně, ale webové šablony (záhlaví, zápatí, navigační odkazy, případně i reklama aj.) a negativně by ovlivnil frekvenční statistiky. Takto bylo odfiltrováno cca 11 % textů. Údaje o velikosti zdrojových dat shrnuje následující tabulka:
Nejprve aplikujeme prozaický filtr. Ačkoliv jsme z daných serverů stahovali pouze texty z relevantních rubrik, celkem často se tu objevují vedle básní také prózy – a zdaleka ne jen básně v próze. Tyto texty musíme pochopitelně také odfiltrovat, aby nezkreslovaly metrickou statistiku. Prozaické texty detekujeme na základě průměrné délky řádku: ta nesmí být vyšší než 10 slov (min. délka řádku je pak logicky 1), zároveň nesmí být nejdelší řádek delší než 20 slov. Jinými slovy: pokud je průměrná délka menší nebo rovna 10 slov na verš a maximální délka verše je 20 slov, jedná se o poezii; v opačném případě text zahazujeme. Takto bylo odfiltrováno cca 6,1 % textů.
Dále je nutno vyloučit plně cizojazyčné texty. Na rozdíl např. od výše zmíněné básně W. Heinrichové Vec tyto texty do KSP nezahrnujeme. Báseň Vec nelze z dané básnické sbírky (a tudíž ani z KSP) vyřadit, neboť by tím utrpěla celistvost sbírky. Oproti tomu básně na literárních serverech vstupují do komunikace jako jednotliviny. K detekci nečeských textů je možné využít různé jazykové filtry, opírající se o specifické dvou- až tříznakové sekvence pro ten který jazyk – takto byly odhaleny četné jinojazyčné texty: nejčastěji slovenské, méně pak anglické či německé, polské a ruské.
Po aplikaci obou výše uvedených filtrů bylo z výchozího datasetu vyřazeno přes 54 tisíc nevyhovujících textů, tedy necelých 11 %. Souhrnný aktuální objem webové složky KSP tak činí více než 442 tisíc básní čítajících přes 34 milionů slov (podrobněji výše v tabulce 2). Nelze však vyloučit další redukci webových dat na základě podrobnější heuristiky; zapotřebí budou ještě alespoň namátkové manuální kontroly, které odhalí problematické případy (včetně potenciálních duplicit), jež by v KSP být neměly. Všechna naše výše popsaná rozhodnutí jsou do značné míry arbitrární, a jako taková se mohou při finální fázi výstavby KSP změnit.
Syntaktická anotace korpusu
Korpus FicTree byl označkován podle analytické roviny Pražského závislostního korpusu - PDT (PDT 2.0 s revizemi 2.5 a 3.0). Korpus byl automaticky syntakticky označkován pomocí dvou různých parserů (MST Parser a MaltParser), výsledky syntaktické anotace byly „manuálně“ opraveny anotátory, rozdíly mezi dvěma verzemi opravené anotace pak posuzoval další anotátor. Podobně se postupovalo u anotace morfologické a u lemmatizace.
Zpřístupnění korpusu
Korpus FicTree je zpřístupněn několika způsoby:
- Korpus ČNK v rozhraní KonText: FicTree je zpřístupněn jako samostatný korpus ČNK v rozhraní KonText.
- Data anotovaná podle PDT: data korpusu FicTree anotovaná podle PDT je možné stáhnout také z úložiště LINDAT/CLARIN (pro nekomerční účely).
- Data anotovaná ve standardu Universal Dependencies: data korpusu FicTree anotovaná ve standardu Universal Dependencies, kam byla automaticky konvertována a přes webové stránky projektu také zpřístupněna (pro nekomerční účely).
1. Korpus ČNK v rozhraní KonText
Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní KonText.
Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v Pražském závislostním korpusu a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů tag a lemma zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky pozičním atributům pos
a case
.
Syntaktická anotace korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz shrnutí):
- afun – syntaktická funkce podle analytické roviny PDT
- parent – relativní pozice tokenu, na němž je daný token (přímo) závislý
- eparent – relativní pozice nejbližšího plnovýznamového tokenu, na němž je daný token (přímo či nepřímo) závislý
- prep – u jmen řízených předložkou uvádí lemma předložky
- p_lemma, p_tag, ep_lemma, ep_tag – tag a lemma řídícího tokenu
- p_pos, p_case, ep_pos, ep_case – slovní druh a pád řídícího tokenu
- p_afun, ep_afun – syntaktická funkce řídícího tokenu
2. Data anotovaná podle PDT
Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři LINDAT/CLARIN v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), přičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: lemma
, tag
, ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce (afun podle formalismu PDT). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru.
3. Data anotovaná ve standardu Universal Dependencies
Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty Treex. Data jsou zveřejněna přes webové rozhraní Universal Dependencies. Data jsou ve formátu CONLL-U, původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu analytické roviny PDT). Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní PML-TQ.
Poděkování
Autoři by rádi poděkovali kolegům, kteří ke zdárnému dokončení KSP opakovaně přispěli cennou radou a nezištnou pomocí: Michalu Křenovi, Václavu Cvrčkovi, Petru Plecháčovi a Robertu Kolárovi. Nemenší poděkování si zaslouží naši anotátoři z řad studentů FF UK: Šárka Kadavá, Jan Musil, Ondřej Pavlík, Milan Pavlovič, Martin Šplíchal, Lukáš Tomášek a Štěpán Truhlařík.
KSP vzniká s podporou z Akademické prémie udělené Akademií věd ČR prof. Pavlu Janouškovi. Děkujeme!
Jak citovat korpus KSP
Škrabal, M. – Piorecký, K. – Procházka, P. – Jeziorský, T.: Korpus současné poezie, verze 1.0 z 29. 6. 2022. Ústav Českého národního korpusu FF UK – Ústav pro českou literaturu AV ČR, v. v. i., Praha 2022. Dostupný z WWW http://www.korpus.cz
Piorecký, K. – Škrabal, M.: Vícejazyčnost v současné české poezii. Několik úvodních postřehů z korpusové perspektivy. Slovenská literatura 6/2020, s. 568–583.
Škrabal, M. – Piorecký, K.: The Corpus of Contemporary Czech Poetry: A database for research on contemporary poetic language across media. Digital Scholarship in the Humanities XX/2022, s. 1–14. https://doi.org/10.1093/llc/fqac013