Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
kurz:hledani_v_paralelnim_korpusu [2016/12/01 14:06] – [Výsledky pro InterCorp v7 a BNC] michalskrabal | kurz:hledani_v_paralelnim_korpusu [2017/04/21 09:10] – [Specifika korpusů řady InterCorp] michalskrabal | ||
---|---|---|---|
Řádek 59: | Řádek 59: | ||
* Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), | * Velikost korpusu nekoreluje s počtem mluvčích daného jazyka (s jeho „velikostí“), | ||
* U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo // | * U textů se značkami a lemmaty mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can’t// nebo //I’m//, které tagger rozdělí na dvě slova (//ca n’t// a //I ’m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo // | ||
- | * Paralelní korpus InterCorp se liší od korpusů řady [[cnk: | + | * Paralelní korpus InterCorp se liší od korpusů řady [[cnk: |
===== Srovnávací výzkum na korpusu InterCorp verze 7 ===== | ===== Srovnávací výzkum na korpusu InterCorp verze 7 ===== | ||
Řádek 112: | Řádek 112: | ||
</ | </ | ||
- | Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textu** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, | + | Korpus Jerome v souhrnné statistice (dostupné přes **Frekvence → Typy textů** úplně dole) uvádí, že přivlastňovací zájmena se v překladech vyskytují v průměru 11 675krát na milion slov, zatímco v nepřekladové, |
^ zdrojový jazyk ^ čeština ^ angličtina | ^ zdrojový jazyk ^ čeština ^ angličtina |