Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:syn2005 [2013/09/23 16:23] – cvrcek | cnk:syn2005 [2022/08/29 18:07] (aktuální) – BatchEdit: pojmy>seznamy dokumenty cvrcek |
---|
====== Korpus SYN2005 ====== | ====== Korpus SYN2005 ====== |
| |
Korpus SYN2005 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpus psané češtiny obsahující 100 milionů textových slov ([[pojmy:token|tokenů]]). V těchto základních charakteristikách se tedy shodne se svým předchůdcem, korpusem [[SYN2000|SYN2000]], i následovníkem, korpusem [[SYN2010]]. Především mezi korpusy [[SYN2005]] a [[SYN2000]] však najdeme i velké [[cnk:syn2005#zmeny_oproti_korpusu_syn2000|množství rozdílů]], které je nutné brát v úvahu mimo jiné při jakémkoli srovnávání, protože pouhé mechanické srovnávání frekvencí může vést k mylným závěrům. Dále je třeba zdůraznit, že **žádný z textů korpusu SYN2005 nebyl již dříve použit v korpusu SYN2000**, všechny korpusy [[cnk:syn|řady SYN]] jsou co se zařazených textů týče disjunktní. | Korpus SYN2005 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpus psané češtiny obsahující 100 milionů textových slov ([[pojmy:token|tokenů]]). V těchto základních charakteristikách se tedy shodne se svým předchůdcem, korpusem [[SYN2000|SYN2000]], i následovníkem, korpusem [[SYN2010]]. Především mezi korpusy [[SYN2005]] a [[SYN2000]] však najdeme i velké [[cnk:syn2005#zmeny_oproti_korpusu_syn2000|množství rozdílů]], které je nutné brát v úvahu mimo jiné při jakémkoli srovnávání, protože pouhé mechanické srovnávání frekvencí může vést k mylným závěrům. Dále je třeba zdůraznit, že všechny korpusy [[cnk:syn|řady SYN]] jsou co se zařazených textů týče disjunktní, tj. žádný z textů korpusu SYN2005 nebyl použit v jiném korpusu této řady. |
| |
<WRAP right 35%> | <WRAP right 35%> |
^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 825 142 | | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 825 142 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 2 382 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 2 382 | |
^ ::: ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 132 353 | | ^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 132 353 | |
^ ::: ^ Počet vět | 7 945 998 | | ^ ::: ^ Počet vět | 7 945 998 | |
^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | | ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
==== Nový přístup k reprezentativnosti – složení korpusu ==== | ==== Nový přístup k reprezentativnosti – složení korpusu ==== |
| |
[[pojmy:reprezentativnost|Reprezentativnost]] korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce: | [[pojmy:reprezentativnost|Reprezentativnost]] korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce: |
| |
| |
^ publicistika | 33 % | 60 % | | ^ publicistika | 33 % | 60 % | |
| |
Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Jednak nyní platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu [[SYN2000|SYN2000]] proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení [[pojmy:synchronni|synchronie]] v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně. | Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Pro korpus SYN2005 především platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu [[SYN2000|SYN2000]] proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení [[pojmy:synchronni|synchronie]] v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně. |
| |
[[složení korpusu - grafy]] | {{:cnk:syn2010_slozeni.png|Složení korpusu SYN2005}} |
| |
==== Co způsobují rozdíly mezi korpusy ==== | ==== Co způsobují rozdíly mezi korpusy ==== |
| |
Například výrazně **vyšší frekvence určitého slova** nemusí být způsobena novějším korpusem, ale pouze **vyšším podílem beletrie** v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí z obou korpusů, zveřejnili jsme [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] slovních tvarů z korpusů SYN2000 a SYN2005. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi oběma korpusy srovnatelné. | Například výrazně **vyšší frekvence určitého slova** nemusí být způsobena novějším korpusem, ale pouze **vyšším podílem beletrie** v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí mezi oběma korpusy, zveřejnili jsme [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] slovních tvarů z reprezentativních korpusů SYN2000, SYN2005 a SYN2010. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi korpusy srovnatelné. |
| |
==== Nová lemmatizace a morfologická anotace ==== | ==== Nová lemmatizace a morfologická anotace ==== |
==== Přehledné informace o zdrojích ==== | ==== Přehledné informace o zdrojích ==== |
| |
U korpusu [[SYN2000|SYN2000]] je nutné dohledávat bibliografické informace v [[seznamy:index#zdrojove_texty_korpusu|seznamu zdrojů]] na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového [[rozhraní XX]], zobrazit se dají buď klepnutím pravým tlačítkem myši na [[pojmy:kwic|KWIC]], nebo v menu [[manual:menu:moznosti_zobrazeni|Zobrazení]]. | U korpusu [[SYN2000|SYN2000]] je nutné dohledávat bibliografické informace v [[seznamy:index#zdrojove_texty_korpusu|seznamu zdrojů]] na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového rozhraní [[manualy:kontext:index|KonText]], zobrazit se dají buď klepnutím pravým tlačítkem myši na [[pojmy:kwic|KWIC]], nebo v menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]. |
| |
===== Struktura korpusu SYN2005 ===== | ===== Struktura korpusu SYN2005 ===== |
| |
Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy opus, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. | Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy opus, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. |
Zobrazit si je můžete v položce menu [[manual:menu:moznosti_zobrazeni|Možnosti zobrazení]] | Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]] |
| |
[{{ :cnk:struktur_znacky.jpg?300 |Strukturní jednotky v korpusu SYN2005.}}] | [{{ :cnk:struktur_znacky.jpg?300 |Strukturní jednotky v korpusu SYN2005.}}] |
===== Jak citovat SYN2005 ===== | ===== Jak citovat SYN2005 ===== |
| |
<WRAP round tip 30%> | <WRAP round tip 75%> |
//Český národní korpus - SYN2005//. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: <http://www.korpus.cz>. | Čermák, F. – Doležalová-Spoustová, D. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Křen, M. – Novotná, R. – Petkevič, V. – Schmiedtová, V. – Skoumalová, H. – Šulc, M. – Velíšek, Z.: //SYN2005: žánrově vyvážený korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: http://www.korpus.cz |
</WRAP> | </WRAP> |
| |
--- //Michal Křen, Olga Richterová// | --- //Michal Křen, Olga Richterová// |
| |
===== Související odkazy ===== | ===== Související odkazy ===== |
<WRAP round box 49%> | <WRAP round box 52%> |
[[cnk:syn2000|SYN2000]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • **[[stránka se srovnávajícími grafy]]** • **[[seznamy_index#zdrojove_texty_korpusu|seznam zdrojů]]** | [[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] • [[seznamy:index#zdrojove_texty_korpusu|Seznam zdrojů]] |
</WRAP> | </WRAP> |
| |