Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize |
cnk:syn:verze3 [2016/09/15 13:54] – [Související odkazy] michalkren | cnk:syn:verze3 [2017/04/21 10:59] – [Složení korpusu SYN verze 3] michalskrabal |
---|
^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^ | ^ <fs medium>Referenční korpusy psaného jazyka (synchronní a obecné) v pořadí podle doby vzniku</fs> ^^^^^^ |
^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ [[pojmy:lemma|lemmatizace]] ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. | ANO | ANO | 2013 | korpus publicistických textů z let 2005-2009 | | ^ [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. | ✓ | ✓ | 2013 | korpus publicistických textů z let 2005-2009 | |
^ [[cnk:syn2010|SYN2010]] | 100 mil. | ANO | ANO | 2010 | reprezentativní korpus, převažují texty z let 2005–2009| | ^ [[cnk:syn2010|SYN2010]] | 100 mil. | ✓ | ✓ | 2010 | reprezentativní korpus, převažují texty z let 2005–2009| |
^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. | ANO | ANO | 2010 | korpus publicistických textů z let 1995–2007 | | ^ [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. | ✓ | ✓ | 2010 | korpus publicistických textů z let 1995–2007 | |
^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. | ANO | ANO | 2006 | korpus publicistických textů z let 1989–2004| | ^ [[cnk:syn2006PUB|SYN2006PUB]] | 300 mil. | ✓ | ✓ | 2006 | korpus publicistických textů z let 1989–2004| |
^ [[cnk:syn2005|SYN2005]] | 100 mil. | ANO | ANO | 2005 | reprezentativní korpus, převažují texty z let 2000–2004| | ^ [[cnk:syn2005|SYN2005]] | 100 mil. | ✓ | ✓ | 2005 | reprezentativní korpus, převažují texty z let 2000–2004| |
^ [[cnk:syn2000|SYN2000]] | 100 mil. | ANO | ANO | 2000 | reprezentativní korpus, převažují texty z let 1990–1999| | ^ [[cnk:syn2000|SYN2000]] | 100 mil. | ✓ | ✓ | 2000 | reprezentativní korpus, převažují texty z let 1990–1999| |
| |
Složení publicistické části korpusu SYN verze 3 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998--2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letech; údaje jsou v milionech slov, tj. pozic bez započtení interpunkce) je možné stáhnout níže, náhled složení publicistické části je vidět na následujícím grafu. | Složení publicistické části korpusu SYN verze 3 pokrývá produkci hlavních celostátních deníků (Mladá fronta DNES, Lidové noviny, Právo, Hospodářské noviny, Blesk) a nespecializovaných časopisů (Reflex, Respekt, Týden) mezi lety 1998--2009. Tabulku s velikostí 15 titulů nejvíce zastoupených v publicistické části korpusu SYN verze 3 (s rozložením po jednotlivých letech; údaje jsou v milionech slov, tj. pozic bez započtení interpunkce) je možné stáhnout níže, náhled složení publicistické části je vidět na následujícím grafu. |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Korpus SYN, verze 3 z 27. 1. 2014((Doplňte aktuální datum.))//. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz | Křen, M. – Čermák, F. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Novotná, R. – Petkevič, V. – Procházka, P. – Schmiedtová, V. – Skoumalová, H. – Šulc, M.: //Korpus SYN, verze 3 z 27. 1. 2014//. Ústav Českého národního korpusu FF UK, Praha 2014. Dostupný z WWW: http://www.korpus.cz |
| |
Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. | Hnátková, M. – Křen, M. – Procházka, P. – Skoumalová, H. (2014): [[http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf|The SYN-series corpora of written Czech]]. In //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, 160–164. Reykjavík: ELRA. ISBN 978-2-9517408-8-4. |