AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
kurz:hledani_v_paralelnim_korpusu [2021/01/07 10:27] michalskrabalkurz:hledani_v_paralelnim_korpusu [2021/03/15 10:51] jankocek
Řádek 1: Řádek 1:
-====== Specifika vyhledávání v paralelním korpusu ====== FIXME skrínšoty!+====== Specifika vyhledávání v paralelním korpusu ====== 
  
 Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v11 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější). Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v11 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).
Řádek 50: Řádek 50:
   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.
   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.
-  * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou.+  * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat v souladu s dělením podle příslušného taggeru a části spřežky oddělit mezerou.
   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)