Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:orwell [2013/09/24 10:20] – olgarichterova | cnk:orwell [2015/04/13 11:48] (aktuální) – Odkaz na vysledek vaclavcvrcek |
---|
====== Korpus ORWELL ====== | ====== Korpus ORWELL ====== |
| |
Tento korpus vznikl v rámci projektu EU Multext-East a tvoří jej text románu [[http://cs.wikipedia.org/wiki/1984_%28rom%C3%A1n%291984|George Orwella]] (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991). Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca 100 tisíc korpusových pozic, a je morfologicky označkovaný. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické morfologické analýze, takže nyní je tento korpus označkovaný takřka bezchybně. | Tento korpus vznikl v rámci projektu EU [[http://nl.ijs.si/ME/|Multext-East]] a tvoří jej text románu [[http://cs.wikipedia.org/wiki/1984_(rom%C3%A1n)|George Orwella]] **1984** (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991). Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca [[pojmy:pozice|100 tisíc korpusových pozic]], a je morfologicky [[pojmy:tag|označkovaný]]. Poměrně malý rozsah tohoto korpusu umožnil ručně opravovat chyby, které vznikly při automatické [[pojmy:morfologicka_analyza|morfologické analýze]], takže nyní je tento korpus označkovaný takřka bezchybně. |
| |
Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL: | Korpus je značkován dvojím způsobem, tj. dvěma sadami značek. V závislosti na použité sadě značek existují tyto dvě podoby korpusu ORWELL: |
| |
* korpus **orwell**, který je značkován [[pojmy:tag|standardními značkami]], tj. těmi, jimiž je značkován i např. korpus [[cnk:syn2000|SYN2000]], | * korpus **orwell**, který je značkován [[pojmy:tag|standardními značkami]], tj. těmi, jimiž je značkován i např. korpus [[cnk:syn2000|SYN2000]], |
| * korpus **orw-mte**, který je značkován původními značkami vytvořenými v [[http://nl.ijs.si/ME/|projektu EU Multext-East]] (viz podrobný [[http://ucnk.ff.cuni.cz/orwell_znacky.php|přehled]] značek). |
* korpus **orw-mte**, který je značkován původními značkami vytvořenými v projektu EU [[http://nl.ijs.si/ME/|Multext-East]]. Podrobný přehled těchto značek včetně příkladů naleznete [[http://korpus.cz/orwell_znacky.php|právě zde]]. | |
| |
Pro práci s oběma podobami korpusu ORWELL se používá standardního vyhledávacího programu Bonito. | |