AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
cnk:orwell [2013/06/20 20:37] – vytvořeno Olga Richterovacnk:orwell [2015/04/13 11:48] (aktuální) – Odkaz na vysledek Václav Cvrček
Řádek 1: Řádek 1:
 ====== Korpus ORWELL ====== ====== Korpus ORWELL ======
  
-Tento korpus vznikl v rámci projektu EU Multext-East a tvoří jej text románu 1984 George Orwella (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991).  Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca 100 tisíc korpusových pozic, a je morfologicky označkovaný. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické morfologické analýze, takže nyní je tento korpus označkovaný takřka bezchybně.+Tento korpus vznikl v rámci projektu EU [[http://nl.ijs.si/ME/|Multext-East]] a tvoří jej text románu [[http://cs.wikipedia.org/wiki/1984_(rom%C3%A1n)|George Orwella]] **1984** (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991).  Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca [[pojmy:pozice|100 tisíc korpusových pozic]], a je morfologicky [[pojmy:tag|označkovaný]]. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické [[pojmy:morfologicka_analyza|morfologické analýze]], takže nyní je tento korpus označkovaný takřka bezchybně.
  
 Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL: Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL:
- +  * korpus **orwell**, který je značkován [[pojmy:tag|standardními značkami]], tj. těmi, jimiž je značkován i např. korpus [[cnk:syn2000|SYN2000]]
-  * korpus orwell, který je značkován standardními značkami, tj. těmi, jimiž je značkován i např. korpus SYN2000, +  * korpus **orw-mte**, který je značkován původními značkami vytvořenými v [[http://nl.ijs.si/ME/|projektu EU Multext-East]] (viz  podrobný [[http://ucnk.ff.cuni.cz/orwell_znacky.php|přehled]] značek).
- +
-  *     korpus orw-mte, který je značkován původními značkami vytvořenými v projektu EU Multext-East. Podrobný přehled těchto značek včetně příkladů naleznete právě zde. +
- +
-Pro práci s oběma podobami korpusu ORWELL se používá standardního vyhledávacího programu Bonito. +