Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:fictree [2017/12/14 16:16] – [Zpřístupnění korpusu] michalkren | cnk:fictree [2017/12/18 19:25] (aktuální) – [Jak citovat korpus FicTree] michalkren |
---|
Korpus FicTree je zpřístupněn několika způsoby: | Korpus FicTree je zpřístupněn několika způsoby: |
- [[cnk:fictree#korpus_cnk_v_rozhrani_kontext|Korpus ČNK v rozhraní KonText]]: FicTree je zpřístupněn jako samostatný [[cnk:uvod|korpus ČNK]] v rozhraní [[manualy:kontext:index|KonText]]. | - [[cnk:fictree#korpus_cnk_v_rozhrani_kontext|Korpus ČNK v rozhraní KonText]]: FicTree je zpřístupněn jako samostatný [[cnk:uvod|korpus ČNK]] v rozhraní [[manualy:kontext:index|KonText]]. |
- [[cnk:fictree#Data anotovaná podle PDT|Data anotovaná podle PDT]]: data korpusu FicTree anotovaná podle [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]] je možné stáhnout také z úložiště [[https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2517|LINDAT/CLARIN]] (pro nekomerční účely). | - [[cnk:fictree#data_anotovana_podle_pdt|Data anotovaná podle PDT]]: data korpusu FicTree anotovaná podle [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]] je možné stáhnout také z úložiště [[https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2517|LINDAT/CLARIN]] (pro nekomerční účely). |
- [[cnk:fictree#Data anotovaná ve standardu Universal Dependencies|Data anotovaná ve standardu Universal Dependencies]], kam byla automaticky konvertována a přes webové stránky projektu [[http://universaldependencies.org/|Universal Dependencies]] také [[http://universaldependencies.org/treebanks/cs_fictree/index.html|zpřístupněna]] (pro nekomerční účely). | - [[cnk:fictree#data_anotovana_ve_standardu_universal_dependencies|Data anotovaná ve standardu Universal Dependencies]]: data korpusu FicTree anotovaná ve standardu [[http://universaldependencies.org/|Universal Dependencies]], kam byla automaticky konvertována a přes webové stránky projektu také [[http://universaldependencies.org/treebanks/cs_fictree/index.html|zpřístupněna]] (pro nekomerční účely). |
| |
===== 1. Korpus ČNK v rozhraní KonText ===== | ===== 1. Korpus ČNK v rozhraní KonText ===== |
| |
Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní [[manualy:kontext:index|KonText]], při volbě korpusu je možné ho najít například stisknutím klávesy [Tab] a zadáním jména **fictree** (či jeho prvních písmen). | Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní [[manualy:kontext:index|KonText]]. |
| |
==== Poziční anotace a značkování ==== | Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|Pražském závislostním korpusu]] a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů [[seznamy:tagy|tag]] a [[pojmy:lemma]] zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky [[pojmy:atributy_pozicni|pozičním atributům]] ''pos'' a ''case''. |
| |
Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v Pražském závislostním korpusu a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů [[seznamy:tagy|tag]] a [[pojmy:lemma]] zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky pozičním atributům [[pojmy:atributy_pozicni|pos a case]]. | |
| |
[[pojmy:syntakticka_analyza|Syntaktická anotace]] korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz [[seznamy:syntakticke_znacky|shrnutí]]): | [[pojmy:syntakticka_analyza|Syntaktická anotace]] korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz [[seznamy:syntakticke_znacky|shrnutí]]): |
* [[seznamy:p_tag|p_pos, p_case, ep_pos, ep_case]] – slovní druh a pád řídícího tokenu | * [[seznamy:p_tag|p_pos, p_case, ep_pos, ep_case]] – slovní druh a pád řídícího tokenu |
* [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu | * [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu |
| |
Kromě těchto značek má korpus FicTree (stejně jako korpus SYN2015) ještě jeden [[pojmy:atributy_pozicni|poziční atribut]]: | |
* lemma_lc - hodnota atributu ''[[pojmy:lemma|lemma]]'' převedená na malá písmena (analogicky ke vztahu atributů [[pojmy:lc|lc]] a [[pojmy:word|word]]) | |
| |
===== 2. Data anotovaná podle PDT ===== | ===== 2. Data anotovaná podle PDT ===== |
===== Jak citovat korpus FicTree ===== | ===== Jak citovat korpus FicTree ===== |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Jelínek, T. – Hnátková, M. – Skoumalová, H.: FicTree: manuálně syntakticky anotovaný korpus české beletrie. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz | Jelínek, T. – Hnátková, M. – Skoumalová, H.: //FicTree: manuálně syntakticky anotovaný korpus české beletrie//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz |
| |
Jelínek, T.: //FicTree: a Manually Annotated Treebank of Czech Fiction.// In: J. Hlaváčová (Ed.): ITAT 2017 Proceedings, pp. 181–185. http://ceur-ws.org/Vol-1885/181.pdf | Jelínek, T.: FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (Ed.): //ITAT 2017 Proceedings//, pp. 181–185. http://ceur-ws.org/Vol-1885/181.pdf |
</WRAP> | </WRAP> |
| |