AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:orwell [2013/09/24 10:20] olgarichterovacnk:orwell [2015/04/13 11:48] (aktuální) – Odkaz na vysledek vaclavcvrcek
Řádek 1: Řádek 1:
 ====== Korpus ORWELL ====== ====== Korpus ORWELL ======
  
-Tento korpus vznikl v rámci projektu EU Multext-East a tvoří jej text románu [[http://cs.wikipedia.org/wiki/1984_%28rom%C3%A1n%291984|George Orwella]] (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991).  Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca 100 tisíc korpusových pozic, a je morfologicky označkovaný. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické morfologické analýze, takže nyní je tento korpus označkovaný takřka bezchybně.+Tento korpus vznikl v rámci projektu EU [[http://nl.ijs.si/ME/|Multext-East]] a tvoří jej text románu [[http://cs.wikipedia.org/wiki/1984_(rom%C3%A1n)|George Orwella]] **1984** (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991).  Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca [[pojmy:pozice|100 tisíc korpusových pozic]], a je morfologicky [[pojmy:tag|označkovaný]]. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické [[pojmy:morfologicka_analyza|morfologické analýze]], takže nyní je tento korpus označkovaný takřka bezchybně.
  
 Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL: Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL:
- 
   * korpus **orwell**, který je značkován [[pojmy:tag|standardními značkami]], tj. těmi, jimiž je značkován i např. korpus [[cnk:syn2000|SYN2000]],   * korpus **orwell**, který je značkován [[pojmy:tag|standardními značkami]], tj. těmi, jimiž je značkován i např. korpus [[cnk:syn2000|SYN2000]],
- +  * korpus **orw-mte**, který je značkován původními značkami vytvořenými v [[http://nl.ijs.si/ME/|projektu EU Multext-East]] (viz  podrobný [[http://ucnk.ff.cuni.cz/orwell_znacky.php|přehled]] značek).
-  * korpus **orw-mte**, který je značkován původními značkami vytvořenými v projektu EU [[http://nl.ijs.si/ME/|Multext-East]]. Podrobný přehled těchto značek včetně příkladů naleznete [[http://korpus.cz/orwell_znacky.php|právě zde]]. +
- +
-Pro práci s oběma podobami korpusu ORWELL se používá standardního vyhledávacího programu Bonito. +