AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2005 [2013/12/08 21:47] – [Korpus SYN2005] michalkrencnk:syn2005 [2022/08/29 18:07] (aktuální) – BatchEdit: pojmy>seznamy dokumenty cvrcek
Řádek 11: Řádek 11:
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 825 142 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 825 142 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 2 382 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 2 382 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 132 353 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 132 353 |
 ^ ::: ^ Počet vět | 7 945 998 | ^ ::: ^ Počet vět | 7 945 998 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO  |   ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO  |  
Řádek 22: Řádek 22:
 ==== Nový přístup k reprezentativnosti – složení korpusu ==== ==== Nový přístup k reprezentativnosti – složení korpusu ====
  
-[[pojmy:reprezentativnost|Reprezentativnost]] korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce:+[[pojmy:reprezentativnost|Reprezentativnost]] korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce: 
  
  
Řádek 30: Řádek 30:
 ^ publicistika | 33 % | 60 % | ^ publicistika | 33 % | 60 % |
  
-Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Jednak nyní platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu [[SYN2000|SYN2000]] proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení [[pojmy:synchronni|synchronie]] v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně.+Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Pro korpus SYN2005 především platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu [[SYN2000|SYN2000]] proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení [[pojmy:synchronni|synchronie]] v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně.
  
-[[složení korpusu - grafy]]+{{:cnk:syn2010_slozeni.png|Složení korpusu SYN2005}}
  
 ==== Co způsobují rozdíly mezi korpusy ==== ==== Co způsobují rozdíly mezi korpusy ====
  
-Například výrazně **vyšší frekvence určitého slova** nemusí být způsobena novějším korpusem, ale pouze **vyšším podílem beletrie** v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí z obou korpusů, zveřejnili jsme [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] slovních tvarů z korpusů SYN2000 a SYN2005. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi oběma korpusy srovnatelné.+Například výrazně **vyšší frekvence určitého slova** nemusí být způsobena novějším korpusem, ale pouze **vyšším podílem beletrie** v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí mezi oběma korpusy, zveřejnili jsme [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] slovních tvarů z reprezentativních korpusů SYN2000, SYN2005 SYN2010. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi korpusy srovnatelné.
  
 ==== Nová lemmatizace a morfologická anotace ==== ==== Nová lemmatizace a morfologická anotace ====
Řádek 46: Řádek 46:
 ==== Přehledné informace o zdrojích ==== ==== Přehledné informace o zdrojích ====
  
-U korpusu [[SYN2000|SYN2000]] je nutné dohledávat bibliografické informace v [[seznamy:index#zdrojove_texty_korpusu|seznamu zdrojů]] na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového [[rozhraní XX]], zobrazit se dají buď klepnutím pravým tlačítkem myši na [[pojmy:kwic|KWIC]], nebo v menu [[manual:menu:moznosti_zobrazeni|Zobrazení]].+U korpusu [[SYN2000|SYN2000]] je nutné dohledávat bibliografické informace v [[seznamy:index#zdrojove_texty_korpusu|seznamu zdrojů]] na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového rozhraní [[manualy:kontext:index|KonText]], zobrazit se dají buď klepnutím pravým tlačítkem myši na [[pojmy:kwic|KWIC]], nebo v menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]].
  
 ===== Struktura korpusu SYN2005 ===== ===== Struktura korpusu SYN2005 =====
  
 Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy opus, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy opus, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]].
-Zobrazit si je můžete v položce menu [[manual:menu:moznosti_zobrazeni|Možnosti zobrazení]]+Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]
  
 [{{ :cnk:struktur_znacky.jpg?300 |Strukturní jednotky v korpusu SYN2005.}}] [{{ :cnk:struktur_znacky.jpg?300 |Strukturní jednotky v korpusu SYN2005.}}]
Řádek 59: Řádek 59:
 ===== Jak citovat SYN2005 ===== ===== Jak citovat SYN2005 =====
  
-<WRAP round tip 30%> +<WRAP round tip 75%> 
-//Český národní korpus - SYN2005//. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: <http://www.korpus.cz>.+Čermák, F. – Doležalová-Spoustová, D. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Křen, M. – Novotná, R. – Petkevič, V. – Schmiedtová, V. – Skoumalová, H. – Šulc, M. – Velíšek, Z.: //SYN2005: žánrově vyvážený korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: http://www.korpus.cz
 </WRAP> </WRAP>
  
  --- //Michal Křen, Olga Richterová//  --- //Michal Křen, Olga Richterová//
- 
 ===== Související odkazy ===== ===== Související odkazy =====
-<WRAP round box 49%> +<WRAP round box 52%> 
-[[cnk:syn2000|SYN2000]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • **[[stránka se srovnávajícími grafy]]** • **[[seznamy:index#zdrojove_texty_korpusu|seznam zdrojů]]**+[[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] • [[seznamy:index#zdrojove_texty_korpusu|Seznam zdrojů]]
 </WRAP> </WRAP>
 +