Korpus FicTree: manuálně syntakticky anotovaný korpus české beletrie

Korpus FicTree je syntakticky anotovaný korpus současné české beletrie, obsahující 135 000 slov (166 000 tokenů). Syntaktická anotace textu byla provedena manuálně. Korpus je také manuálně lemmatizovaný a tagovaný.

Název		FicTree
Pozice	Počet pozic (tokenů)	166 432
	Počet pozic (tokenů) bez interpunkce	134 637
	Počet slovních tvarů (wordů)	29 914
	Počet lemmat	13 668
	Počet vět	12 760
	Rok zveřejnění	2017

Složení korpusu FicTree

Korpus FicTree se skládá z osmi prozaických děl z žánru beletrie vydaných v České republice mezi lety 1991 a 2007. Šest z těchto literárních děl se (dle klasifikace textů podle žánrů používané v ČNK do r. 2015) považuje za „čistou“ beletrii, jedno dílo se řadí k memoárům, jedno dílo spadá do žánru „literatura pro děti a mládež“. Pět textů (80% tokenů) jsou původní české texty, dva texty jsou překlady z němčiny, jeden je překlad ze slovenštiny.

Syntaktická anotace korpusu

Korpus FicTree byl označkován podle analytické roviny Pražského závislostního korpusu - PDT (PDT 2.0 s revizemi 2.5 a 3.0). Korpus byl automaticky syntakticky označkován pomocí dvou různých parserů (MST Parser a MaltParser), výsledky syntaktické anotace byly „manuálně“ opraveny anotátory, rozdíly mezi dvěma verzemi opravené anotace pak posuzoval další anotátor. Podobně se postupovalo u anotace morfologické a u lemmatizace.

Zpřístupnění korpusu

S korpusem FicTree lze pracovat několika způsoby, každý je podrobněji popsán níže:

Jako korpus ČNK: FicTree je zpřístupněn jako samostatný korpus mezi ostatními korpusy ČNK v rozhraní KonText.
Data anotovaná podle PDT: Data korpusu FicTree je také možné stáhnout z úložiště LINDAT (pro nekomerční účely).
Data anotovaná ve standardu Universal Dependencies, kam byla automaticky konvertována a přes webové stránky projektu Universal Dependencies také zpřístupněna (pro nekomerční účely).

1. Korpus FicTree dostupný v KonTextu

Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní KonText, při volbě korpusu je možné ho najít například stisknutím klávesy [Tab] a zadáním jména fictree (či jeho prvních písmen).

Poziční anotace a značkování

Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v Pražském závislostním korpusu a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů tag a lemma zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky pozičním atributům pos a case.

Syntaktická anotace korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz shrnutí):

afun – syntaktická funkce podle analytické roviny PDT
parent – relativní pozice tokenu, na němž je daný token (přímo) závislý
eparent – relativní pozice nejbližšího plnovýznamového tokenu, na němž je daný token (přímo či nepřímo) závislý
prep – u jmen řízených předložkou uvádí lemma předložky
p_lemma, p_tag, ep_lemma, ep_tag – tag a lemma řídícího tokenu
p_pos, p_case, ep_pos, ep_case – slovní druh a pád řídícího tokenu
p_afun, ep_afun – syntaktická funkce řídícího tokenu

Kromě těchto značek má korpus FicTree (stejně jako korpus SYN2015) ještě jeden poziční atribut:

lemma_lc - hodnota atributu lemma převedená na malá písmena (analogicky ke vztahu atributů lc a word)

2. Anotovaná data dostupná v repozitáři LINDAT/CLARIN

Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři LINDAT/CLARIN v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), přičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: lemma, tag, ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce (afun podle formalismu PDT). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru.

3. Data anotovaná ve standardu Universal Dependencies

Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty Treex.

Data jsou zveřejněna přes webové rozhraní Universal Dependencies. Data jsou ve formátu CONLL-U, původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu a-roviny PDT).

Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní PML-TQ.

Poděkování

Chtěli bychom poděkovat anotátorkám, které pracovaly na manuální anotaci korpusu: Ivaně Klímové, Aleně Kropíkové a Olze Zitové.

Jak citovat korpus FicTree

Jelínek, T. – Hnátková, M. – Skoumalová, H.: FicTree: manuálně syntakticky anotovaný korpus české beletrie. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Jelínek, T.: FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (Ed.): ITAT 2017 Proceedings, pp. 181–185. http://ceur-ws.org/Vol-1885/181.pdf

Historie: • korpusdb • dotko • aranea • mapka • fictree