AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:fictree [2017/12/14 15:51] – [3. Data anotovaná ve standardu Universal Dependencies] michalkrencnk:fictree [2017/12/18 19:25] (aktuální) – [Jak citovat korpus FicTree] michalkren
Řádek 25: Řádek 25:
 ===== Zpřístupnění korpusu ===== ===== Zpřístupnění korpusu =====
  
-S korpusem FicTree lze pracovat několika způsoby, každý je podrobněji popsán níže+Korpus FicTree je zpřístupněn několika způsoby: 
-  - [[cnk:fictree#Korpus FicTree dostupný v KonTextu|Jako korpus ČNK:]] FicTree je zpřístupněn jako samostatný korpus mezi ostatními korpusy ČNK v rozhraní [[manualy:kontext:index|KonText]]. +  - [[cnk:fictree#korpus_cnk_v_rozhrani_kontext|Korpus ČNK v rozhraní KonText]]FicTree je zpřístupněn jako samostatný [[cnk:uvod|korpus ČNK]] v rozhraní [[manualy:kontext:index|KonText]]. 
-  - [[cnk:fictree#Anotovaná data korpusu dostupná na serveru Lindat|Data anotovaná podle PDT]]: Data korpusu FicTree je také možné stáhnout z úložiště [[https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2517|LINDAT]] (pro nekomerční účely). +  - [[cnk:fictree#data_anotovana_podle_pdt|Data anotovaná podle PDT]]: data korpusu FicTree anotovaná podle [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]] je možné stáhnout také z úložiště [[https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2517|LINDAT/CLARIN]] (pro nekomerční účely). 
-  - [[cnk:fictree#Data anotovaná ve standardu Universal Dependencies|Data anotovaná ve standardu UD]] byla také automaticky konvertována do formátu [[http://universaldependencies.org/|Universal Dependencies]], přes webové stránky tohoto projektu jsou také zpřístupněna [[http://universaldependencies.org/treebanks/cs_fictree/index.html|data]] (pro nekomerční účely).+  - [[cnk:fictree#data_anotovana_ve_standardu_universal_dependencies|Data anotovaná ve standardu Universal Dependencies]]: data korpusu FicTree anotovaná ve standardu [[http://universaldependencies.org/|Universal Dependencies]], kam byla automaticky konvertována a přes webové stránky projektu také [[http://universaldependencies.org/treebanks/cs_fictree/index.html|zpřístupněna]] (pro nekomerční účely).
  
-===== 1. Korpus FicTree dostupný KonTextu =====+===== 1. Korpus ČNK rozhraní KonText =====
  
-Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní [[manualy:kontext:index|KonText]], při volbě korpusu je možné ho najít například stisknutím klávesy [Tab] a zadáním jména **fictree** (či jeho prvních písmen).+Korpus FicTree je dostupný stejně jako jiné korpusy ČNK přes vyhledávací rozhraní [[manualy:kontext:index|KonText]].
  
-==== Poziční anotace a značkování ==== +Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|Pražském závislostním korpusu]] a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů [[seznamy:tagy|tag]] a [[pojmy:lemma]] zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky [[pojmy:atributy_pozicni|pozičním atributům]] ''pos'' ''case''.
- +
-Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v Pražském závislostním korpusu a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnné, ale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů [[seznamy:tagy|tag]] a [[pojmy:lemma]] zpřístupňuje korpus FicTree i samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky pozičním atributům [[pojmy:atributy_pozicni|pos a case]].+
  
 [[pojmy:syntakticka_analyza|Syntaktická anotace]] korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz [[seznamy:syntakticke_znacky|shrnutí]]): [[pojmy:syntakticka_analyza|Syntaktická anotace]] korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz [[seznamy:syntakticke_znacky|shrnutí]]):
Řádek 47: Řádek 45:
   * [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu   * [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu
  
-Kromě těchto značek má korpus FicTree (stejně jako korpus SYN2015) ještě jeden [[pojmy:atributy_pozicni|poziční atribut]]: +===== 2. Data anotovaná podle PDT =====
-    * lemma_lc - hodnota atributu ''[[pojmy:lemma|lemma]]'' převedená na malá písmena (analogicky ke vztahu atributů [[pojmy:lc|lc]] a [[pojmy:word|word]])+
  
-===== 2. Anotovaná data dostupná v repozitáři LINDAT/CLARIN ===== +Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři [[https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2517|LINDAT/CLARIN]] v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), přičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: ''lemma'', ''tag'', ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce ([[seznamy:afun|afun]] podle formalismu [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru.
- +
-Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři [[http://hdl.handle.net/11234/1-2517|LINDAT/CLARIN]] v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), přičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: ''lemma'', ''tag'', ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce ([[seznamy:afun|afun]] podle formalismu [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru.+
  
 ===== 3. Data anotovaná ve standardu Universal Dependencies ===== ===== 3. Data anotovaná ve standardu Universal Dependencies =====
  
-Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty [[https://github.com/ufal/treex|Treex]]. +Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty [[https://github.com/ufal/treex|Treex]]. Data jsou zveřejněna přes webové rozhraní [[http://universaldependencies.org/treebanks/cs_fictree/index.html|Universal Dependencies]]. Data jsou ve formátu [[http://universaldependencies.org/format.html|CONLL-U]], původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu analytické roviny PDT). Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní [[https://lindat.mff.cuni.cz/services/pmltq/|PML-TQ]].
- +
-Data jsou zveřejněna přes webové rozhraní [[http://universaldependencies.org/treebanks/cs_fictree/index.html|Universal Dependencies]]. Data jsou ve formátu [[http://universaldependencies.org/format.html|CONLL-U]], původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu a-roviny PDT). +
- +
-Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní [[https://lindat.mff.cuni.cz/services/pmltq/|PML-TQ]].+
  
 ===== Poděkování ===== ===== Poděkování =====
Řádek 68: Řádek 59:
 ===== Jak citovat korpus FicTree ===== ===== Jak citovat korpus FicTree =====
 <WRAP round tip 70%> <WRAP round tip 70%>
-Jelínek, T. – Hnátková, M. – Skoumalová, H.: FicTree: manuálně syntakticky anotovaný korpus české beletrie. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz+Jelínek, T. – Hnátková, M. – Skoumalová, H.: //FicTree: manuálně syntakticky anotovaný korpus české beletrie//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
  
-Jelínek, T.: //FicTree: a Manually Annotated Treebank of Czech Fiction.// In: J. Hlaváčová (Ed.): ITAT 2017 Proceedings, pp. 181–185. http://ceur-ws.org/Vol-1885/181.pdf+Jelínek, T.: FicTree: a Manually Annotated Treebank of Czech Fiction. In: J. Hlaváčová (Ed.): //ITAT 2017 Proceedings//, pp. 181–185. http://ceur-ws.org/Vol-1885/181.pdf
 </WRAP> </WRAP>