AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze6 [2015/09/10 14:48] Václav Cvrčekcnk:intercorp:verze6 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC Václav Cvrček (admin)
Řádek 63: Řádek 63:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  76 861 107 |  46 880 365 |  167 141 155 |  890 129 077| ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  76 861 107 |  46 880 365 |  167 141 155 |  890 129 077|
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  61 962 499 |  37 584 764 |  138 762 949 |  728 507 959 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  61 962 499 |  37 584 764 |  138 762 949 |  728 507 959 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  996 |  4 |  1 939 |  56 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  996 |  4 |  1 939 |  56 |
 ^ ::: ^ Počet div |  996 |  96 988 |  1 939 |  1 728 492 | ^ ::: ^ Počet div |  996 |  96 988 |  1 939 |  1 728 492 |
 ^ ::: ^ Počet vět |  5 254 361 |  2 392 808 |  10 283 732 |  44 113 753 | ^ ::: ^ Počet vět |  5 254 361 |  2 392 808 |  10 283 732 |  44 113 753 |
Řádek 98: Řádek 98:
  
  
-<p><b>Jádrem</b> korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. <b>kolekce</b>. Aktuálně jsou k dispozici publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a>, právní texty Evropské Unie z korpusu <a href="http://langtech.jrc.it/JRC-Acquis.html" target="_blank">Acquis Communautaire</a> a zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a>. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Některé texty z korpusů Acquis Communautaire a Europarl byly částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Jen automatické zarovnání bez ruční kontroly mají ve verzi 6 dočasně i některé texty z jádra, a to část textů převzatých z korpusu <a href="http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3" target="_blank">ASPAC – Amsterdam Slavic Parallel Aligned Corpus</a>. Zarovnání těchto textů bude opraveno v další verzi. </p> +<p><b>Jádrem</b> korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. <b>kolekce</b>. Aktuálně jsou k dispozici publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a>, právní texty Evropské Unie z korpusu <a href="https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis" target="_blank">Acquis Communautaire</a> a zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a>. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Některé texty z korpusů Acquis Communautaire a Europarl byly částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Jen automatické zarovnání bez ruční kontroly mají ve verzi 6 dočasně i některé texty z jádra, a to část textů převzatých z korpusu <a href="http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3" target="_blank">ASPAC – Amsterdam Slavic Parallel Aligned Corpus</a>. Zarovnání těchto textů bude opraveno v další verzi. </p> 
  
 <p>Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je <p>Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je
Řádek 361: Řádek 361:
 |s|s.id|unikátní identifikátor věty|text| |s|s.id|unikátní identifikátor věty|text|
  
-====Dotazy, připomínky a podněty==== 
-<HTML> 
  
-  <p> 
-... k obsahu korpusu a podobě vyhledávacích rozhraní uvítáme na adrese  
-</p> 
-<p><img src="http://ucnk.ff.cuni.cz/intercorp/img/adresy/mava_a.gif"></p> 
- 
- 
-</HTML> 
 ====Poděkování==== ====Poděkování====
 <HTML> <HTML>