Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
kurz:hledani_v_paralelnim_korpusu [2021/01/07 10:27] – Michal Škrabal | kurz:hledani_v_paralelnim_korpusu [2021/04/19 14:33] – [Specifika vyhledávání v paralelním korpusu] Michal Škrabal | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
- | ====== Specifika vyhledávání v paralelním korpusu ====== | + | ====== Specifika vyhledávání v paralelním korpusu ====== |
Z výchozího rozcestníku, | Z výchozího rozcestníku, | ||
Řádek 28: | Řádek 28: | ||
Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy: | Ve dvou sloupcích vidíme segmenty (věty nebo spojení vět), které odpovídají našemu dotazu v obou jazycích. Tmavším pozadím je označen sloupec, který je aktivní a s nímž můžeme dále pracovat (v našem případě čeština). Pokud bychom chtěli za aktivní sloupec označit anglickou část, stačí kliknout na záhlaví sloupce. Veškeré statistické nástroje KonTextu (např. [[manualy: | ||
- | Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: '' | + | Pokud nás zajímají méně standardní překlady, můžeme dotaz položit obráceně. Na české straně vybereme lemma //pravda// a na anglické zvolíme lemma //truth// nebo //true// -- případně obojí: '' |
Řádek 50: | Řádek 50: | ||
* Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné. | * Korpusy jednotlivých jazyků se výrazně liší co do složení textových typů i žánrů, většinou tedy nejsou mezi sebou snadno srovnatelné. | ||
* Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), | * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), | ||
- | * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo // | + | * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo // |
* Paralelní korpus InterCorp se liší od korpusů řady [[cnk: | * Paralelní korpus InterCorp se liší od korpusů řady [[cnk: | ||