AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2005 [2013/08/19 17:03] alzbetavitkovacnk:syn2005 [2022/08/29 18:07] (aktuální) – BatchEdit: pojmy>seznamy dokumenty Václav Cvrček (admin)
Řádek 2: Řádek 2:
 ====== Korpus SYN2005 ====== ====== Korpus SYN2005 ======
  
-Korpus SYN2005 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpus psané češtiny obsahující 100 milionů textových slov ([[pojmy:token|tokenů]]). V těchto základních charakteristikách se tedy shodne se svým předchůdcem, korpusem [[SYN2000|SYN2000]], i následovníkem, korpusem [[SYN2010]]. Především mezi korpusy [[SYN2005]] a [[SYN2000]] však najdeme i velké [[cnk:syn2005#zmeny_oproti_korpusu_syn2000|množství rozdílů]], které je nutné brát v úvahu mimo jiné při jakémkoli srovnávání, protože pouhé mechanické srovnávání frekvencí může vést k mylným závěrům. Dále je třeba zdůraznit, že **žádný z textů korpusu SYN2005 nebyl již dříve použit v korpusu SYN2000**, všechny korpusy [[cnk:syn|řady SYN]] jsou co se zařazených textů týče disjunktní.+Korpus SYN2005 je [[pojmy:synchronni|synchronní]] [[pojmy:reprezentativnost|reprezentativní]] korpus psané češtiny obsahující 100 milionů textových slov ([[pojmy:token|tokenů]]). V těchto základních charakteristikách se tedy shodne se svým předchůdcem, korpusem [[SYN2000|SYN2000]], i následovníkem, korpusem [[SYN2010]]. Především mezi korpusy [[SYN2005]] a [[SYN2000]] však najdeme i velké [[cnk:syn2005#zmeny_oproti_korpusu_syn2000|množství rozdílů]], které je nutné brát v úvahu mimo jiné při jakémkoli srovnávání, protože pouhé mechanické srovnávání frekvencí může vést k mylným závěrům. Dále je třeba zdůraznit, že všechny korpusy [[cnk:syn|řady SYN]] jsou co se zařazených textů týče disjunktní, tj. žádný z textů korpusu SYN2005 nebyl použit v jiném korpusu této řady.
  
 <WRAP right 35%> <WRAP right 35%>
Řádek 11: Řádek 11:
 ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 825 142 | ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 825 142 |
 ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 2 382 | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:opus|opusů]] | 2 382 |
-^ ::: ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 132 353 |+^ ::: ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 132 353 |
 ^ ::: ^ Počet vět | 7 945 998 | ^ ::: ^ Počet vět | 7 945 998 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO  |   ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO  |  
Řádek 22: Řádek 22:
 ==== Nový přístup k reprezentativnosti – složení korpusu ==== ==== Nový přístup k reprezentativnosti – složení korpusu ====
  
-[[pojmy:reprezentativnost|Reprezentativnost]] korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce:+[[pojmy:reprezentativnost|Reprezentativnost]] korpusu SYN2005 se opírá o nový výzkum recepce psaného jazyka, jeho složení se proto v některých ohledech od korpusu SYN2000 značně liší. Srovnání obou korpusů podle hlavních oborů uvádíme v následující tabulce: 
  
  
Řádek 30: Řádek 30:
 ^ publicistika | 33 % | 60 % | ^ publicistika | 33 % | 60 % |
  
-Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Jednak nyní platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu [[SYN2000|SYN2000]] proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení [[pojmy:synchronni|synchronie]] v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně.+Další rozdíly lze pozorovat i v rámci hlavních oborů: zatímco rozdělení odborné literatury podle jejího tematického zaměření se změnilo jen málo, složení publicistiky se změnilo naopak výrazně. Pro korpus SYN2005 především platí, že veškeré publicistické texty jsou z let 2000 - 2004, přičemž každý rok má v rámci publicistiky stejné zastoupení; dále se oproti korpusu [[SYN2000|SYN2000]] proměnilo i zastoupení jednotlivých titulů, k nimž některé další přibyly - svým podílem je mezi nimi významný zejména deník Blesk. Nezměnilo se však vymezení [[pojmy:synchronni|synchronie]] v ostatních dvou hlavních oborech, v korpusu SYN2005 tak najdeme odbornou literaturu z let 1990 - 2004, beletrie může být dokonce i starší; v obou případech však byl kladen důraz na to, aby starších textů bylo co nejméně.
  
-[[složení korpusu - grafy]]+{{:cnk:syn2010_slozeni.png|Složení korpusu SYN2005}}
  
 ==== Co způsobují rozdíly mezi korpusy ==== ==== Co způsobují rozdíly mezi korpusy ====
  
-Například výrazně **vyšší frekvence určitého slova** nemusí být způsobena novějším korpusem, ale pouze **vyšším podílem beletrie** v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí z obou korpusů, zveřejnili jsme [[seznamy:srovfrekvseznamy|srovnávací frekvenční seznamy]] slovních tvarů z korpusů SYN2000 a SYN2005. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi oběma korpusy srovnatelné.+Například výrazně **vyšší frekvence určitého slova** nemusí být způsobena novějším korpusem, ale pouze **vyšším podílem beletrie** v něm; zastoupení tohoto slova v psaném jazyce se přitom nemuselo vůbec změnit. Protože si však uvědomujeme nevýhody, které vyplývají z nemožnosti přímého srovnávání frekvencí mezi oběma korpusy, zveřejnili jsme [[seznamy:srovnavaci_seznamy|srovnávací frekvenční seznamy]] slovních tvarů z reprezentativních korpusů SYN2000, SYN2005 SYN2010. Tyto seznamy obsahují kromě běžných frekvenčních údajů také frekvence přepočítané, jejichž hodnoty jsou již mezi korpusy srovnatelné.
  
 ==== Nová lemmatizace a morfologická anotace ==== ==== Nová lemmatizace a morfologická anotace ====
Řádek 45: Řádek 45:
  
 ==== Přehledné informace o zdrojích ==== ==== Přehledné informace o zdrojích ====
-U korpusu [[SYN2000|SYN2000]] je nutné dohledávat bibliografické informace v [[seznamy:zdroje|seznamu zdrojů]] na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového [[rozhranixx|rozhraní]], zobrazit se dají buď klepnutím pravým tlačítkem myši na [[pojmy:kwic|KWIC]], nebo v menu Zobrazení > Vlastní > Reference.+ 
 +U korpusu [[SYN2000|SYN2000]] je nutné dohledávat bibliografické informace v [[seznamy:index#zdrojove_texty_korpusu|seznamu zdrojů]] na základě kódů. V korpusu SYN2005 jsou již veškeré relevantní informace o textu (autor, název, nakladatel, rok vydání atd.) k dispozici přímo prostřednictvím korpusového rozhraní [[manualy:kontext:index|KonText]], zobrazit se dají buď klepnutím pravým tlačítkem myši na [[pojmy:kwic|KWIC]], nebo v menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]].
  
 ===== Struktura korpusu SYN2005 ===== ===== Struktura korpusu SYN2005 =====
 +
 Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy opus, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]]. Mezi [[pojmy:atributy_strukturni|strukturní jednotky]] používané v tomto korpusu patří ''<opus>'', ''<doc>'' a ''<s>'', tedy opus, dokument a věta - a pak každá jednotlivá [[pojmy:atributy_strukturni#pozice_jako_strukturni_jednotka|pozice]].
-Zobrazit si je můžete v položce menu [[cnk:rozhranixx#menu...|Možnosti zobrazení]]+Zobrazit si je můžete v položce menu [[manualy:kontext:moznosti_zobrazeni|Zobrazení]]
  
 [{{ :cnk:struktur_znacky.jpg?300 |Strukturní jednotky v korpusu SYN2005.}}] [{{ :cnk:struktur_znacky.jpg?300 |Strukturní jednotky v korpusu SYN2005.}}]
Řádek 57: Řádek 59:
 ===== Jak citovat SYN2005 ===== ===== Jak citovat SYN2005 =====
  
-//Český národní korpus - SYN2005//. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: <http://www.korpus.cz>.+<WRAP round tip 75%> 
 +Čermák, F. – Doležalová-Spoustová, D. – Hlaváčová, J. – Hnátková, M. – Jelínek, T. – Kocek, J. – Kopřivová, M. – Křen, M. – Novotná, R. – Petkevič, V. – Schmiedtová, V. – Skoumalová, H. – Šulc, M. – Velíšek, Z.: //SYN2005: žánrově vyvážený korpus psané češtiny//. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: http://www.korpus.cz 
 +</WRAP>
  
  --- //Michal Křen, Olga Richterová//  --- //Michal Křen, Olga Richterová//
- 
 ===== Související odkazy ===== ===== Související odkazy =====
 +<WRAP round box 52%>
 +[[cnk:syn|SYN]] • [[cnk:syn2000|SYN2000]] • [[cnk:syn2006pub|SYN2006PUB]] • [[cnk:syn2009pub|SYN2009PUB]] • [[cnk:syn2010|SYN2010]] • [[cnk:SYN2013PUB|SYN2013PUB]] • [[seznamy:index#zdrojove_texty_korpusu|Seznam zdrojů]]
 +</WRAP>
  
-[[cnk:syn2010|SYN2010]], [[cnk:syn2000|SYN2000]], **[[stránka se srovnávajícími grafy]]**, **[[seznam zdrojů]]**