Toto je starší verze dokumentu!
Obsah
Korpus současné poezie
Jedná se, jak už název napovídá, o korpus současných básnických textů české provenience vymezené lety 1990 a 2020, tj. reprezentativní vzorek tuzemského básnictví za poslední tři dekády. Co je podstatné, tento vzorek zahrnuje nejen texty oficiálně knižně vydané, a tedy i prošlé klasickým edičním procesem, ale i tvorbu amatérskou, koncentrovanou především na tzv. literární servery. Toto metodologické rozhodnutí není dáno snahou o jakousi demokratizaci poezie; věříme, že bez webových textů by obraz současné české poezie nebyl úplný, postihoval by pouze jeden její – co do proporce dosti malý (viz níže tabulka 2) – segment . To by neodpovídalo realitě (tudíž by šlo i o vědeckou nepoctivost), kdy literární servery sehrály v českém literárním kontextu významnou roli (Piorecký 2016), mj. jako platforma pro publikační začátky některých dnes již etablovaných básníků. Tato základní dichotomie nám mimochodem otevírá možnost oba módy, v KSP rozlišované pomocí atributu doc.medium (print vs. web), vzájemně konfrontovat a srovnávat.
Název | KSP | |
---|---|---|
Pozice | Počet pozic (tokenů) | 42 435 867 |
Počet pozic (tokenů) bez interpunkce | 35 506 057 | |
Počet slovních tvarů (wordů) | 900 203 | |
Počet lemmat | 378 233 | |
Rok zveřejnění | 2022 |
Složení korpusu FicTree
Korpus FicTree se skládá z osmi prozaických děl z žánru beletrie vydaných v České republice mezi lety 1991 a 2007. Šest z těchto literárních děl se (dle klasifikace textů podle žánrů používané v ČNK do r. 2015) považuje za „čistou“ beletrii, jedno dílo se řadí k memoárům, jedno dílo spadá do žánru „literatura pro děti a mládež“. Pět textů (80% tokenů) jsou původní české texty, dva texty jsou překlady z němčiny, jeden je překlad ze slovenštiny.
Syntaktická anotace korpusu
Korpus FicTree byl označkován podle analytické roviny Pražského závislostního korpusu - PDT (PDT 2.0 s revizemi 2.5 a 3.0). Korpus byl automaticky syntakticky označkován pomocí dvou různých parserů (MST Parser a MaltParser), výsledky syntaktické anotace byly „manuálně“ opraveny anotátory, rozdíly mezi dvěma verzemi opravené anotace pak posuzoval další anotátor. Podobně se postupovalo u anotace morfologické a u lemmatizace.
Zpřístupnění korpusu
Korpus FicTree je zpřístupněn několika způsoby:
- Korpus ČNK v rozhraní KonText: FicTree je zpřístupněn jako samostatný korpus ČNK v rozhraní KonText.
- Data anotovaná podle PDT: data korpusu FicTree anotovaná podle PDT je možné stáhnout také z úložiště LINDAT/CLARIN (pro nekomerční účely).
- Data anotovaná ve standardu Universal Dependencies: data korpusu FicTree anotovaná ve standardu Universal Dependencies, kam byla automaticky konvertována a přes webové stránky projektu také zpřístupněna (pro nekomerční účely).
1. Korpus ČNK v rozhraní KonText
Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní KonText.
Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v Pražském závislostním korpusu a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů tag a lemma zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky pozičním atributům pos
a case
.
Syntaktická anotace korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz shrnutí):
- afun – syntaktická funkce podle analytické roviny PDT
- parent – relativní pozice tokenu, na němž je daný token (přímo) závislý
- eparent – relativní pozice nejbližšího plnovýznamového tokenu, na němž je daný token (přímo či nepřímo) závislý
- prep – u jmen řízených předložkou uvádí lemma předložky
- p_lemma, p_tag, ep_lemma, ep_tag – tag a lemma řídícího tokenu
- p_pos, p_case, ep_pos, ep_case – slovní druh a pád řídícího tokenu
- p_afun, ep_afun – syntaktická funkce řídícího tokenu
2. Data anotovaná podle PDT
Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři LINDAT/CLARIN v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), přičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: lemma
, tag
, ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce (afun podle formalismu PDT). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru.
3. Data anotovaná ve standardu Universal Dependencies
Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty Treex. Data jsou zveřejněna přes webové rozhraní Universal Dependencies. Data jsou ve formátu CONLL-U, původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu analytické roviny PDT). Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní PML-TQ.
Poděkování
Autoři by rádi poděkovali kolegům, kteří ke zdárnému dokončení KSP opakovaně přispěli cennou radou a nezištnou pomocí: Michalu Křenovi, Václavu Cvrčkovi, Petru Plecháčovi a Robertu Kolárovi. Nemenší poděkování si zaslouží naši anotátoři z řad studentů FF UK: Šárka Kadavá, Jan Musil, Ondřej Pavlík, Milan Pavlovič, Martin Šplíchal, Lukáš Tomášek a Štěpán Truhlařík.
KSP vzniká s podporou z Akademické prémie udělené Akademií věd ČR prof. Pavlu Janouškovi. Děkujeme!
Jak citovat korpus KSP
Škrabal, M. – Piorecký, K. – Procházka, P. – Jeziorský, T.: Korpus současné poezie, verze 1.0 z 29. 6. 2022. Ústav Českého národního korpusu FF UK – Ústav pro českou literaturu AV ČR, v. v. i., Praha 2022. Dostupný z WWW http://www.korpus.cz
Piorecký, K. – Škrabal, M.: Vícejazyčnost v současné české poezii. Několik úvodních postřehů z korpusové perspektivy. Slovenská literatura 6/2020, s. 568–583.
Škrabal, M. – Piorecký, K.: The Corpus of Contemporary Czech Poetry: A database for research on contemporary poetic language across media. Digital Scholarship in the Humanities XX/2022, s. 1–14. https://doi.org/10.1093/llc/fqac013