Toto je starší verze dokumentu!
Obsah
Korpus současné poezie
Korpus FicTree je syntakticky anotovaný korpus současné české beletrie, obsahující 135 000 slov (166 000 tokenů). Syntaktická anotace textu byla provedena manuálně. Korpus je také manuálně lemmatizovaný a tagovaný.
Název | KSP | |
---|---|---|
Pozice | Počet pozic (tokenů) | 42 435 867 |
Počet pozic (tokenů) bez interpunkce | 35 506 057 | |
Počet slovních tvarů (wordů) | 900 203 | |
Počet lemmat | 378 233 | |
Rok zveřejnění | 2022 |
Složení korpusu FicTree
Korpus FicTree se skládá z osmi prozaických děl z žánru beletrie vydaných v České republice mezi lety 1991 a 2007. Šest z těchto literárních děl se (dle klasifikace textů podle žánrů používané v ČNK do r. 2015) považuje za „čistou“ beletrii, jedno dílo se řadí k memoárům, jedno dílo spadá do žánru „literatura pro děti a mládež“. Pět textů (80% tokenů) jsou původní české texty, dva texty jsou překlady z němčiny, jeden je překlad ze slovenštiny.
Syntaktická anotace korpusu
Korpus FicTree byl označkován podle analytické roviny Pražského závislostního korpusu - PDT (PDT 2.0 s revizemi 2.5 a 3.0). Korpus byl automaticky syntakticky označkován pomocí dvou různých parserů (MST Parser a MaltParser), výsledky syntaktické anotace byly „manuálně“ opraveny anotátory, rozdíly mezi dvěma verzemi opravené anotace pak posuzoval další anotátor. Podobně se postupovalo u anotace morfologické a u lemmatizace.
Zpřístupnění korpusu
Korpus FicTree je zpřístupněn několika způsoby:
- Korpus ČNK v rozhraní KonText: FicTree je zpřístupněn jako samostatný korpus ČNK v rozhraní KonText.
- Data anotovaná podle PDT: data korpusu FicTree anotovaná podle PDT je možné stáhnout také z úložiště LINDAT/CLARIN (pro nekomerční účely).
- Data anotovaná ve standardu Universal Dependencies: data korpusu FicTree anotovaná ve standardu Universal Dependencies, kam byla automaticky konvertována a přes webové stránky projektu také zpřístupněna (pro nekomerční účely).
1. Korpus ČNK v rozhraní KonText
Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní KonText.
Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v Pražském závislostním korpusu a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů tag a lemma zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky pozičním atributům pos
a case
.
Syntaktická anotace korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz shrnutí):
- afun – syntaktická funkce podle analytické roviny PDT
- parent – relativní pozice tokenu, na němž je daný token (přímo) závislý
- eparent – relativní pozice nejbližšího plnovýznamového tokenu, na němž je daný token (přímo či nepřímo) závislý
- prep – u jmen řízených předložkou uvádí lemma předložky
- p_lemma, p_tag, ep_lemma, ep_tag – tag a lemma řídícího tokenu
- p_pos, p_case, ep_pos, ep_case – slovní druh a pád řídícího tokenu
- p_afun, ep_afun – syntaktická funkce řídícího tokenu
2. Data anotovaná podle PDT
Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři LINDAT/CLARIN v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), přičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: lemma
, tag
, ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce (afun podle formalismu PDT). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru.
3. Data anotovaná ve standardu Universal Dependencies
Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty Treex. Data jsou zveřejněna přes webové rozhraní Universal Dependencies. Data jsou ve formátu CONLL-U, původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu analytické roviny PDT). Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní PML-TQ.
Poděkování
Autoři by rádi poděkovali kolegům, kteří ke zdárnému dokončení KSP opakovaně přispěli cennou radou a nezištnou pomocí: Michalu Křenovi, Václavu Cvrčkovi, Petru Plecháčovi a Robertu Kolárovi. Nemenší poděkování si zaslouží naši anotátoři z řad studentů FF UK: Šárka Kadavá, Jan Musil, Ondřej Pavlík, Milan Pavlovič, Martin Šplíchal, Lukáš Tomášek a Štěpán Truhlařík.
KSP vzniká s podporou z Akademické prémie udělené Akademií věd ČR prof. Pavlu Janouškovi. Děkujeme!
Jak citovat korpus KSP
Škrabal, M. – Piorecký, K. – Procházka, P. – Jeziorský, T.: Korpus současné poezie, verze 1.0 z 29. 6. 2022. Ústav Českého národního korpusu FF UK – Ústav pro českou literaturu AV ČR, v. v. i., Praha 2022. Dostupný z WWW http://www.korpus.cz
Piorecký, K. – Škrabal, M.: Vícejazyčnost v současné české poezii. Několik úvodních postřehů z korpusové perspektivy. Slovenská literatura 6/2020, s. 568–583.
Škrabal, M. – Piorecký, K.: The Corpus of Contemporary Czech Poetry: A database for research on contemporary poetic language across media. Digital Scholarship in the Humanities XX/2022, s. 1–14. https://doi.org/10.1093/llc/fqac013