Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:syn2015 [2016/03/24 13:41]
Michal Křen [Poziční anotace a značkování]
cnk:syn2015 [2016/10/17 13:14]
Michal Křen [Korpus SYN2015]
Řádek 2: Řádek 2:
 ====== Korpus SYN2015 ====== ====== Korpus SYN2015 ======
  
-Korpus SYN2015 je [[pojmy:​synchronni|synchronní]] [[pojmy:​reprezentativnost|reprezentativní]] a [[pojmy:​referencni#​referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:​psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:​token|tokenů]]). Navazuje na předchozí korpusy [[cnk:​syn|řady SYN]] ([[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]] a [[cnk:​syn2010|SYN2010]]),​ vydávané v pětiletých intervalech,​ a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění;​ SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:​lemma|lemmatizovaný]] a morfologicky [[pojmy:​tag|tagovaný]],​ ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti,​ upravena a rozšířena [[cnk:​klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[seznamy:syntakticke_znacky|syntaktické anotace]]. ​+Korpus SYN2015 je [[pojmy:​synchronni|synchronní]] [[pojmy:​reprezentativnost|reprezentativní]] a [[pojmy:​referencni#​referencni_korpus_jako_nemenna_entita|referenční]] korpus současné [[pojmy:​psany|psané]] češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce ([[pojmy:​token|tokenů]]). Navazuje na předchozí korpusy [[cnk:​syn|řady SYN]] ([[cnk:​syn2000|SYN2000]],​ [[cnk:​syn2005|SYN2005]] a [[cnk:​syn2010|SYN2010]]),​ vydávané v pětiletých intervalech,​ a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění;​ SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v SYN2015 nebyl použit v jiném korpusu této řady (korpusy jsou vzájemně disjunktní). Korpus SYN2015 je [[pojmy:​lemma|lemmatizovaný]] a morfologicky [[pojmy:​tag|tagovaný]],​ ve srovnání s ostatními korpusy však přináší celou řadu změn: byl zúžen pojem psanosti, změněn princip reprezentativnosti,​ upravena a rozšířena [[cnk:​klasifikace_textu_syn2015|klasifikace textů]] a přibyla nová vrstva [[pojmy:syntakticka_analyza|syntaktické anotace]]. ​
  
  
Řádek 106: Řádek 106:
 <WRAP round tip 70%> <WRAP round tip 70%>
 Křen, M. – Cvrček, V. – Čapka, T. – Čermáková,​ A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková,​ D. – Petkevič, V. – Procházka, P. – Skoumalová,​ H. – Škrabal, M. – Truneček, P. – Vondřička,​ P.  – Zasina, A.: //SYN2015: reprezentativní korpus psané češtiny//​. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://​www.korpus.cz Křen, M. – Cvrček, V. – Čapka, T. – Čermáková,​ A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková,​ D. – Petkevič, V. – Procházka, P. – Skoumalová,​ H. – Škrabal, M. – Truneček, P. – Vondřička,​ P.  – Zasina, A.: //SYN2015: reprezentativní korpus psané češtiny//​. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://​www.korpus.cz
 +
 +Cvrček, V. – Čermáková,​ A. – Křen, M. (2016): Nová koncepce synchronních korpusů psané češtiny. //Slovo a slovesnost//,​ 77 (2), 83–101. ISSN 0037-7031.
 +
 +Křen, M. – Cvrček, V. – Čapka, T. – Čermáková,​ A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková,​ D. – Petkevič, V. – Procházka, P. – Skoumalová,​ H. – Škrabal, M. – Truneček, P. – Vondřička,​ P. – Zasina, A. (2016): [[http://​www.lrec-conf.org/​proceedings/​lrec2016/​pdf/​186_Paper.pdf|SYN2015:​ Representative Corpus of Contemporary Written Czech]]. In: //​Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'​16)//,​ 2522–2528. Portorož: ELRA. ISBN 978-2-9517408-9-1.
 </​WRAP>​ </​WRAP>​
 +