AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus ORWELL

Tento korpus vznikl v rámci projektu EU Multext-East a tvoří jej text románu 1984 George Orwella (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991). Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca 100 tisíc korpusových pozic, a je morfologicky označkovaný. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické morfologické analýze, takže nyní je tento korpus označkovaný takřka bezchybně.

Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL:

  • korpus orwell, který je značkován standardními značkami, tj. těmi, jimiž je značkován i např. korpus SYN2000,
  • korpus orw-mte, který je značkován původními značkami vytvořenými v projektu EU Multext-East. Podrobný přehled těchto značek včetně příkladů naleznete právě zde.

Pro práci s oběma podobami korpusu ORWELL se používá standardního vyhledávacího programu Bonito.