Korpus FicTree je syntakticky anotovaný korpus současné české beletrie, obsahující 135 000 slov (166 000 tokenů). Syntaktická anotace textu byla provedena manuálně. Korpus je také manuálně lemmatizovaný a tagovaný.
Název | FicTree | |
---|---|---|
Pozice | Počet pozic (tokenů) | 166 432 |
Počet pozic (tokenů) bez interpunkce | 134 637 | |
Počet slovních tvarů (wordů) | 29 914 | |
Počet lemmat | 13 668 | |
Počet vět | 12 760 | |
Rok zveřejnění | 2017 |
Korpus FicTree se skládá z osmi prozaických děl z žánru beletrie vydaných v České republice mezi lety 1991 a 2007. Šest z těchto literárních děl se (dle klasifikace textů podle žánrů používané v ČNK do r. 2015) považuje za „čistou“ beletrii, jedno dílo se řadí k memoárům, jedno dílo spadá do žánru „literatura pro děti a mládež“. Pět textů (80% tokenů) jsou původní české texty, dva texty jsou překlady z němčiny, jeden je překlad ze slovenštiny.
Korpus FicTree byl označkován podle analytické roviny Pražského závislostního korpusu - PDT (PDT 2.0 s revizemi 2.5 a 3.0). Korpus byl automaticky syntakticky označkován pomocí dvou různých parserů (MST Parser a MaltParser), výsledky syntaktické anotace byly „manuálně“ opraveny anotátory, rozdíly mezi dvěma verzemi opravené anotace pak posuzoval další anotátor. Podobně se postupovalo u anotace morfologické a u lemmatizace.
Korpus FicTree je zpřístupněn několika způsoby:
Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní KonText.
Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v Pražském závislostním korpusu a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů tag a lemma zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky pozičním atributům pos
a case
.
Syntaktická anotace korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz shrnutí):
Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři LINDAT/CLARIN v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), přičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: lemma
, tag
, ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce (afun podle formalismu PDT). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru.
Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty Treex. Data jsou zveřejněna přes webové rozhraní Universal Dependencies. Data jsou ve formátu CONLL-U, původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu analytické roviny PDT). Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní PML-TQ.
Chtěli bychom poděkovat anotátorkám, které pracovaly na manuální anotaci korpusu: Ivaně Klímové, Aleně Kropíkové a Olze Zitové.
Jelínek, T. – Hnátková, M. – Skoumalová, H.: FicTree: manuálně syntakticky anotovaný korpus české beletrie. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
Jelínek, T.: FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (Ed.): ITAT 2017 Proceedings, pp. 181–185. http://ceur-ws.org/Vol-1885/181.pdf