====== Korpus ORWELL ====== Tento korpus vznikl v rámci projektu EU [[http://nl.ijs.si/ME/|Multext-East]] a tvoří jej text románu [[http://cs.wikipedia.org/wiki/1984_(rom%C3%A1n)|George Orwella]] **1984** (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991). Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca [[pojmy:pozice|100 tisíc korpusových pozic]], a je morfologicky [[pojmy:tag|označkovaný]]. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické [[pojmy:morfologicka_analyza|morfologické analýze]], takže nyní je tento korpus označkovaný takřka bezchybně. Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL: * korpus **orwell**, který je značkován [[pojmy:tag|standardními značkami]], tj. těmi, jimiž je značkován i např. korpus [[cnk:syn2000|SYN2000]], * korpus **orw-mte**, který je značkován původními značkami vytvořenými v [[http://nl.ijs.si/ME/|projektu EU Multext-East]] (viz podrobný [[http://ucnk.ff.cuni.cz/orwell_znacky.php|přehled]] značek).