Toto je starší verze dokumentu!
Korpus ORWELL
Tento korpus vznikl v rámci projektu EU Multext-East a tvoří jej text románu George Orwella 1984 (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991). Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca 100 tisíc korpusových pozic, a je morfologicky označkovaný. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické morfologické analýze, takže nyní je tento korpus označkovaný takřka bezchybně.
Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL:
- korpus orwell, který je značkován standardními značkami, tj. těmi, jimiž je značkován i např. korpus SYN2000,
- korpus orw-mte, který je značkován původními značkami vytvořenými v projektu EU Multext-East. Podrobný přehled těchto značek včetně příkladů naleznete právě zde.
Pro práci s oběma podobami korpusu ORWELL se používá standardní vyhledávací manažer.