====== Korpus FicTree: manuálně syntakticky anotovaný korpus české beletrie ====== Korpus FicTree je [[pojmy:syntakticka_analyza|syntakticky anotovaný]] korpus současné české beletrie, obsahující 135 000 slov (166 000 [[pojmy:token|tokenů]]). Syntaktická anotace textu byla provedena manuálně. Korpus je také manuálně [[pojmy:lemma|lemmatizovaný]] a [[pojmy:tag|tagovaný]]. ^ Název ^^ FicTree ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 166 432 | ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 134 637 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 29 914 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 13 668 | ^ ::: ^ Počet vět | 12 760 | ^ ::: ^ Rok zveřejnění | 2017 | ===== Složení korpusu FicTree ===== Korpus FicTree se skládá z osmi prozaických děl z žánru beletrie vydaných v České republice mezi lety 1991 a 2007. Šest z těchto literárních děl se (dle [[seznamy:genre|klasifikace textů podle žánrů]] používané v ČNK do r. 2015) považuje za "čistou" beletrii, jedno dílo se řadí k memoárům, jedno dílo spadá do žánru "literatura pro děti a mládež". Pět textů (80% tokenů) jsou původní české texty, dva texty jsou překlady z němčiny, jeden je překlad ze slovenštiny. ===== Syntaktická anotace korpusu ===== Korpus FicTree byl označkován podle analytické roviny Pražského závislostního korpusu - PDT ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT 2.0]] s revizemi [[http://ufal.mff.cuni.cz/pdt2.5/cs/documentation.html|2.5]] a [[http://ufal.mff.cuni.cz/pdt3.0|3.0]]). Korpus byl automaticky syntakticky označkován pomocí dvou různých parserů ([[https://sourceforge.net/projects/mstparser/|MST Parser]] a [[http://www.maltparser.org/|MaltParser]]), výsledky syntaktické anotace byly "manuálně" opraveny anotátory, rozdíly mezi dvěma verzemi opravené anotace pak posuzoval další anotátor. Podobně se postupovalo u anotace morfologické a u lemmatizace. ===== Zpřístupnění korpusu ===== Korpus FicTree je zpřístupněn několika způsoby: - [[cnk:fictree#korpus_cnk_v_rozhrani_kontext|Korpus ČNK v rozhraní KonText]]: FicTree je zpřístupněn jako samostatný [[cnk:uvod|korpus ČNK]] v rozhraní [[manualy:kontext:index|KonText]]. - [[cnk:fictree#data_anotovana_podle_pdt|Data anotovaná podle PDT]]: data korpusu FicTree anotovaná podle [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]] je možné stáhnout také z úložiště [[https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2517|LINDAT/CLARIN]] (pro nekomerční účely). - [[cnk:fictree#data_anotovana_ve_standardu_universal_dependencies|Data anotovaná ve standardu Universal Dependencies]]: data korpusu FicTree anotovaná ve standardu [[http://universaldependencies.org/|Universal Dependencies]], kam byla automaticky konvertována a přes webové stránky projektu také [[http://universaldependencies.org/treebanks/cs_fictree/index.html|zpřístupněna]] (pro nekomerční účely). ===== 1. Korpus ČNK v rozhraní KonText ===== Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní [[manualy:kontext:index|KonText]]. Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|Pražském závislostním korpusu]] a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů [[seznamy:tagy|tag]] a [[pojmy:lemma]] zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky [[pojmy:atributy_pozicni|pozičním atributům]] ''pos'' a ''case''. [[pojmy:syntakticka_analyza|Syntaktická anotace]] korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz [[seznamy:syntakticke_znacky|shrnutí]]): * [[seznamy:afun|afun]] – syntaktická funkce podle analytické roviny PDT * [[seznamy:parent|parent]] – relativní pozice tokenu, na němž je daný token (přímo) závislý * [[seznamy:eparent|eparent]] – relativní pozice nejbližšího plnovýznamového tokenu, na němž je daný token (přímo či nepřímo) závislý * [[seznamy:prep|prep]] – u jmen řízených předložkou uvádí lemma předložky * [[seznamy:p_tag|p_lemma, p_tag, ep_lemma, ep_tag]] – tag a lemma řídícího tokenu * [[seznamy:p_tag|p_pos, p_case, ep_pos, ep_case]] – slovní druh a pád řídícího tokenu * [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu ===== 2. Data anotovaná podle PDT ===== Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři [[https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2517|LINDAT/CLARIN]] v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), přičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: ''lemma'', ''tag'', ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce ([[seznamy:afun|afun]] podle formalismu [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru. ===== 3. Data anotovaná ve standardu Universal Dependencies ===== Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty [[https://github.com/ufal/treex|Treex]]. Data jsou zveřejněna přes webové rozhraní [[http://universaldependencies.org/treebanks/cs_fictree/index.html|Universal Dependencies]]. Data jsou ve formátu [[http://universaldependencies.org/format.html|CONLL-U]], původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu analytické roviny PDT). Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní [[https://lindat.mff.cuni.cz/services/pmltq/|PML-TQ]]. ===== Poděkování ===== Chtěli bychom poděkovat anotátorkám, které pracovaly na manuální anotaci korpusu: Ivaně Klímové, Aleně Kropíkové a Olze Zitové. ===== Jak citovat korpus FicTree ===== Jelínek, T. – Hnátková, M. – Skoumalová, H.: //FicTree: manuálně syntakticky anotovaný korpus české beletrie//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz Jelínek, T.: FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (Ed.): //ITAT 2017 Proceedings//, pp. 181–185. http://ceur-ws.org/Vol-1885/181.pdf