Následující verze | Předchozí verze |
cnk:orwell [2013/06/20 20:37] – vytvořeno olgarichterova | cnk:orwell [2015/04/13 11:48] (aktuální) – Odkaz na vysledek vaclavcvrcek |
---|
====== Korpus ORWELL ====== | ====== Korpus ORWELL ====== |
| |
Tento korpus vznikl v rámci projektu EU Multext-East a tvoří jej text románu 1984 George Orwella (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991). Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca 100 tisíc korpusových pozic, a je morfologicky označkovaný. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické morfologické analýze, takže nyní je tento korpus označkovaný takřka bezchybně. | Tento korpus vznikl v rámci projektu EU [[http://nl.ijs.si/ME/|Multext-East]] a tvoří jej text románu [[http://cs.wikipedia.org/wiki/1984_(rom%C3%A1n)|George Orwella]] **1984** (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991). Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca [[pojmy:pozice|100 tisíc korpusových pozic]], a je morfologicky [[pojmy:tag|označkovaný]]. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické [[pojmy:morfologicka_analyza|morfologické analýze]], takže nyní je tento korpus označkovaný takřka bezchybně. |
| |
Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL: | Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL: |
| * korpus **orwell**, který je značkován [[pojmy:tag|standardními značkami]], tj. těmi, jimiž je značkován i např. korpus [[cnk:syn2000|SYN2000]], |
* korpus orwell, který je značkován standardními značkami, tj. těmi, jimiž je značkován i např. korpus SYN2000, | * korpus **orw-mte**, který je značkován původními značkami vytvořenými v [[http://nl.ijs.si/ME/|projektu EU Multext-East]] (viz podrobný [[http://ucnk.ff.cuni.cz/orwell_znacky.php|přehled]] značek). |
| |
* korpus orw-mte, který je značkován původními značkami vytvořenými v projektu EU Multext-East. Podrobný přehled těchto značek včetně příkladů naleznete právě zde. | |
| |
Pro práci s oběma podobami korpusu ORWELL se používá standardního vyhledávacího programu Bonito. | |