Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
kurz:hledani_v_paralelnim_korpusu [2021/01/07 10:27]
Michal Škrabal
kurz:hledani_v_paralelnim_korpusu [2021/04/19 14:35] (aktuální)
Michal Škrabal [Specifika vyhledávání v paralelním korpusu]
Řádek 1: Řádek 1:
-====== Specifika vyhledávání v paralelním korpusu ====== FIXME skrínšoty!+====== Specifika vyhledávání v paralelním korpusu ====== 
  
 Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v11 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější). Z výchozího rozcestníku, který obsahuje seznam všech dostupných korpusů, vybereme štítek [[cnk:intercorp|InterCorp]] a pak první jazyk, např. **InterCorp v11 - Czech** (případně jinou jeho verzi, doporučujeme nicméně pracovat vždy s tou nejnovější).
Řádek 12: Řádek 12:
 <WRAP clear/> <WRAP clear/>
  
-Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]] -- 5 nejčastějších ekvivalentů z této databáze se objeví v Kontextu nalevo od paralelních konkordancí.((Funguje pouze pro InterCorp ve verzi 10 a 11.)) Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřít) kliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy ''E''.+Analýzou paralelních konkordancí následně můžeme dojít k tomu, že nejčastějším ekvivalentem českého lemmatu //pravda// v angličtině jsou adjektivní tvary //right// a //true// a substantivní //truth//. Podobné výsledky zprostředkovává i nástroj [[manualy:treq|Treq]] -- 5 nejčastějších ekvivalentů z této databáze se objeví v Kontextu nalevo od paralelních konkordancí. Okénko s rozšiřujícími informacemi lze zavřít (a znovu otevřít) kliknutím na modrou ikonku vlevo nahoře, případně stisknutím klávesy ''E''.
  
 [{{konkordance_lemma_pravda.png?direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině }}] [{{konkordance_lemma_pravda.png?direct&600|Vyhodnocení dotazu na lemma //pravda// v češtině }}]
Řádek 28: Řádek 28:
 Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] nebo [[manualy:kontext:kolokace|kolokace]]) pak pracují s takto vybraným sloupcem. Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy:kontext:frekvencni_distribuce|frekvenční distribuce]] nebo [[manualy:kontext:kolokace|kolokace]]) pak pracují s takto vybraným sloupcem.
  
-Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **NEobsahuje**.+Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: ''[lemma=%%"truth|true"%%]'' --, ale s volbou **Příklad neobsahuje odpovídající výsledky**.
  
  
Řádek 50: Řádek 50:
   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.   * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné.
   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.   * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), je dána dostupností textů a aktivitou koordinačního týmu pro daný jazyk.
-  * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou.+  * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś//, rozdělenými na //była m// a //gdyby ś//). Je třeba počítat i s chybným rozdělením: //gdzie ś za Wisłą//. Dotaz na celou spřežku je nutné zadat v souladu s dělením podle příslušného taggeru a části spřežky oddělit mezerou.
   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)   * Paralelní korpus InterCorp se liší od korpusů řady [[cnk:syn|SYN]] i [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_intercorp|některými strukturními jednotkami]] a jejich atributy. (Na strukturní značky a atributy se lze podívat nebo si je zvolit k zobrazení volbou **[[manualy:kontext:moznosti_zobrazeni|Zobrazení →  Korpusová nastavení]]**.)