Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
cnk:intercorp:verze6 [2016/09/02 12:51]
Michal Škrabal [Dotazy, připomínky a podněty]
cnk:intercorp:verze6 [2017/07/10 09:16] (aktuální)
Michal Škrabal [Obsah korpusu]
Řádek 98: Řádek 98:
  
  
-<​p><​b>​Jádrem</​b>​ korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. <​b>​kolekce</​b>​. Aktuálně jsou k dispozici publistické články a zpravodajství z webových stránek <a href="​http://​www.project-syndicate.org/"​ target="​_blank">​Project Syndicate</​a>​ a <a href="​http://​www.presseurop.eu/"​ target="​_blank">​Presseurop</​a>,​ právní texty Evropské Unie z korpusu <a href="http://langtech.jrc.it/JRC-Acquis.html" target="​_blank">​Acquis Communautaire</​a>​ a zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="​http://​www.statmt.org/​europarl/"​ target="​_blank">​Europarl</​a>​. Tyto texty jsou zarovnané jen automaticky,​ v konkordancích tedy může být více vět, které si navzájem neodpovídají. Některé texty z korpusů Acquis Communautaire a Europarl byly částečně opraveny nebo vytříděny,​ takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Jen automatické zarovnání bez ruční kontroly mají ve verzi 6 dočasně i některé texty z jádra, a to část textů převzatých z korpusu <a href="​http://​www.uva.nl/​over-de-uva/​organisatie/​medewerkers/​content/​b/​a/​a.a.barentsen/​a.a.barentsen.html#​tab_3"​ target="​_blank">​ASPAC – Amsterdam Slavic Parallel Aligned Corpus</​a>​. Zarovnání těchto textů bude opraveno v další verzi. </​p> ​+<​p><​b>​Jádrem</​b>​ korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. <​b>​kolekce</​b>​. Aktuálně jsou k dispozici publistické články a zpravodajství z webových stránek <a href="​http://​www.project-syndicate.org/"​ target="​_blank">​Project Syndicate</​a>​ a <a href="​http://​www.presseurop.eu/"​ target="​_blank">​Presseurop</​a>,​ právní texty Evropské Unie z korpusu <a href="https://ec.europa.eu/jrc/​en/​language-technologies/​jrc-acquis" target="​_blank">​Acquis Communautaire</​a>​ a zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="​http://​www.statmt.org/​europarl/"​ target="​_blank">​Europarl</​a>​. Tyto texty jsou zarovnané jen automaticky,​ v konkordancích tedy může být více vět, které si navzájem neodpovídají. Některé texty z korpusů Acquis Communautaire a Europarl byly částečně opraveny nebo vytříděny,​ takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Jen automatické zarovnání bez ruční kontroly mají ve verzi 6 dočasně i některé texty z jádra, a to část textů převzatých z korpusu <a href="​http://​www.uva.nl/​over-de-uva/​organisatie/​medewerkers/​content/​b/​a/​a.a.barentsen/​a.a.barentsen.html#​tab_3"​ target="​_blank">​ASPAC – Amsterdam Slavic Parallel Aligned Corpus</​a>​. Zarovnání těchto textů bude opraveno v další verzi. </​p> ​
  
 <​p>​Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je <​p>​Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je