AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:syn2015 [2016/03/24 13:38] – [Poziční anotace a značkování] Michal Křencnk:syn2015 [2016/05/31 17:23] – [Jak citovat SYN2015] Michal Křen
Řádek 62: Řádek 62:
 ==== Poziční anotace a značkování ==== ==== Poziční anotace a značkování ====
  
-Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). Kromě toho se změnil způsob lemmatizace interpunkčních znamének: zatímco v předchozích korpusech byly sjednoceny různé způsoby zápisu uvozovek, apostrofů a byl také setřen rozdíl mezi spojovníkem a pomlčkou, v SYN2015 je již původní podoba těchto znaků zachována, a to v atributu [[pojmy:word|word]]; v atributu [[pojmy:lemma|lemma]] je pak uvedena sjednocená podoba, kterou je výhodné použít pro vyhledávání.+Oproti předchozím korpusům byla vylepšena [[pojmy:lemma|lemmatizace]] a [[pojmy:morfologicka_analyza|morfologické značkování]]; obojí je v zásadě shodné se zpracováním korpusu [[cnk:syn2013pub|SYN2013PUB]] (viz popis [[seznamy:tagy|tagsetu]]), pro SYN2015 byly nicméně použity novější verze všech nástrojů (vylepšení se týkají jak morfologického slovníku, tak pravidlové [[pojmy:desambiguace|disambiguace]]). Kromě toho se změnil způsob lemmatizace interpunkčních znamének: zatímco v předchozích korpusech byly sjednoceny různé způsoby zápisu uvozovek, apostrofů a byl také setřen rozdíl mezi spojovníkem a pomlčkou, v SYN2015 je již původní podoba těchto znaků v maximální možné míře zachována, a to v atributu [[pojmy:word|word]]; v atributu [[pojmy:lemma|lemma]] je pak uvedena sjednocená podoba, kterou je výhodné použít pro vyhledávání.
  
 Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]): Vedle [[pojmy:morfologicka_analyza|morfologické anotace]] se v SYN2015 poprvé v korpusech řady SYN objevuje automatická [[pojmy:syntakticka_analyza|anotace syntaktická]]. Anotace vychází z koncepce Pražského závislostního korpusu ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]) a byla provedena stochastickým [[pojmy:parser|parserem]] TurboParser. Vzhledem k její experimentální povaze lze syntaktickou anotaci využívat jako rámcové vodítko k dalšímu jazykovému výzkumu, je však nutné počítat s tím, že není spolehlivá jako anotace morfologická. Chybovost je vyšší u méně častých syntaktických funkcí a konstrukcí, u nejčastějších funkcí v obvyklém kontextu klesá pod 10 %. Anotace je zachycena pomocí několika pozičních atributů (viz [[seznamy:syntakticke_znacky|shrnutí]]):
Řádek 106: Řádek 106:
 <WRAP round tip 70%> <WRAP round tip 70%>
 Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P.  – Zasina, A.: //SYN2015: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P.  – Zasina, A.: //SYN2015: reprezentativní korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz
 +
 +Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A. (2016): [[http://www.lrec-conf.org/proceedings/lrec2016/pdf/186_Paper.pdf|SYN2015: Representative Corpus of Contemporary Written Czech]]. In: //Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)//, 2522–2528. Portorož: ELRA. ISBN 978-2-9517408-9-1.
 </WRAP> </WRAP>
 +