AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze4 [2015/01/29 15:05] michalavacikovacnk:intercorp:verze4 [2017/07/10 09:18] (aktuální) – [Poděkování] michalskrabal
Řádek 84: Řádek 84:
 </HTML> </HTML>
 =====Korpus InterCorp verze 4===== =====Korpus InterCorp verze 4=====
-<HTML> 
-  
-<p> 
-Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší množství jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. 
-</p> 
  
-<p>Po registraci na stránce <a href="http://korpus.cz/prohlaseni.php">Prohlášení uživatele korpusů ÚČNK</a>  lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete. +====Přístup textům====
-</p>+
  
-<p>InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech: +InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:
-</p>+
  
-<ul><li> je přístupný přes speciální rozhraní <a href="http://www.korpus.cz/Park/" target="_blank">Park</a>, které je naší nadstavbou nad  systémem Manatee Pavla Rychlého; stručný návod k použití Parku najdete <a href="http://www.korpus.cz/intercorp/?req=page:manual&amp;lang=cs">zde</a>; autorem Parku je Michal Štourač</li></ul> +  * je přístupný přes rozhraní KonText pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] 
- +  specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje (verze jsou ovšem od roku 2014 zpětně dostupné)
-<ul><li><a href="http://www.korpus.cz/corpora/intercorp/" target="_blank">jednojazyčné</a> verze všech paralelních korpusů jsou zpřístupněné pomocí webové verze rozhraní Bonito, takžje možné na korpusy jednotlivých jazyků používat standardní nástroje, jako jsou filtry, třídění, kolokace, frekvenční distribuce, náhodné vzorky atd.; stejně jako se všemi cizojazyčnými korpusy je navíc možné pracovat i s odpovídajícími verzemi češtiny</li></ul> +
- +
-<ul><li>specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje</li></ul> +
- +
-</HTML>+
 ====Obsah korpusu==== ====Obsah korpusu====
 <HTML> <HTML>
Řádek 112: Řádek 100:
 je tedy tzv. pivot, česká verze textu (originál nebo překlad) je je tedy tzv. pivot, česká verze textu (originál nebo překlad) je
 zarovnaná s jednou nebo více verzemi cizojazyčnými. zarovnaná s jednou nebo více verzemi cizojazyčnými.
-Celkový rozsah zpřístupněné části korpusu ve verzi InterCorp č. 4 (historii verzí najdete <a href="http://www.korpus.cz/intercorp/?req=page:releaseNotes&amp;lang=cs">zde</a>) ze září 2011 je 92 290 000 slov v zarovnaných cizojazyčných textech.+Celkový rozsah zpřístupněné části korpusu ve verzi 4 (historii verzí najdete <a href="https://wiki.korpus.cz/doku.php/cnk:intercorp:historie">zde</a>) ze září 2011 je 92 290 000 slov v zarovnaných cizojazyčných textech.
 V tomto celkovém počtu slov jsou již započteny zhruba 2,3 - 3 miliony slov z Project Syndicate (pro tyto jazyky: cs, de, en, es, fr, ru) a okolo 0,8 milionu slov z Presseurop (pro tyto jazyky: cs, de, en, es, fr, it, nl, pl, pt, ro), což je přehledně vidět na následujícím grafu. Pod souhrnným názvem "beletrie" jsou v něm zahrnuty všechny ručně zarovnané texty, které jsou z velké většiny tvořeny právě beletrii. Velikost je udávána v milionech slov.</p> V tomto celkovém počtu slov jsou již započteny zhruba 2,3 - 3 miliony slov z Project Syndicate (pro tyto jazyky: cs, de, en, es, fr, ru) a okolo 0,8 milionu slov z Presseurop (pro tyto jazyky: cs, de, en, es, fr, it, nl, pl, pt, ro), což je přehledně vidět na následujícím grafu. Pod souhrnným názvem "beletrie" jsou v něm zahrnuty všechny ručně zarovnané texty, které jsou z velké většiny tvořeny právě beletrii. Velikost je udávána v milionech slov.</p>
  
 <img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts_v4.png" alt="Graf složení korpusů jednotlivých jazyků" title="Složení korpusů jednotlivých jazyků"> <img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts_v4.png" alt="Graf složení korpusů jednotlivých jazyků" title="Složení korpusů jednotlivých jazyků">
 +<br> 
 +<br> 
 +</HTML> 
 +====Velikost korpusu v tisících slov==== 
 +<HTML>
  
 <p>Následující tabulka ukazuje přehled velikostí jednotlivých paralelních korpusů různých jazyků. V řádku jsou uvedeny počty slov příslušného jazyka (v tisících), platné pro průnik s jazykem uvedeným ve sloupci. Např. virtuální bulharsko-chorvatský korpus (1. řádek - "bg") obsahuje celkem 187 tisíc slov v bulharštině (1. řádek - "bg", 9. sloupec – "hr") a 189 tisíc slov v chorvatštině (9. řádek – "hr", 1. sloupec – "bg"). Druhý, zvýrazněný sloupec ukazuje množství slov zarovnaných vůči češtině, a tedy i celkovou velikost jednojazyčného korpusu jazyka uvedeného na příslušném řádku.</p> <p>Následující tabulka ukazuje přehled velikostí jednotlivých paralelních korpusů různých jazyků. V řádku jsou uvedeny počty slov příslušného jazyka (v tisících), platné pro průnik s jazykem uvedeným ve sloupci. Např. virtuální bulharsko-chorvatský korpus (1. řádek - "bg") obsahuje celkem 187 tisíc slov v bulharštině (1. řádek - "bg", 9. sloupec – "hr") a 189 tisíc slov v chorvatštině (9. řádek – "hr", 1. sloupec – "bg"). Druhý, zvýrazněný sloupec ukazuje množství slov zarovnaných vůči češtině, a tedy i celkovou velikost jednojazyčného korpusu jazyka uvedeného na příslušném řádku.</p>
Řádek 185: Řádek 177:
 <td align="center" nowrap="nowrap">✔</td> <td align="center" nowrap="nowrap">✔</td>
 <td align="center" nowrap="nowrap">✔</td> <td align="center" nowrap="nowrap">✔</td>
-<td align="center" nowrap="nowrap"><a href="http://korpus.cz/bonito/znacky.php">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html">anglicky</a> *)</td>+<td align="center" nowrap="nowrap"><a href="http://wiki.korpus.cz/doku.php/seznamy:tagy">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html">anglicky</a> *)</td>
 <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.ps">anglicky</a></td> <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.ps">anglicky</a></td>
 <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/">Morče</a></td> <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/">Morče</a></td>
Řádek 290: Řádek 282:
  
 </HTML> </HTML>
-====Upozornění==== 
-<HTML> 
  
-  <p> 
-Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese  
-</p> 
-<p><img src="http://ucnk.ff.cuni.cz/intercorp/img/adresy/mava_a.gif"></p> 
- 
- 
-</HTML> 
 ====Poděkování==== ====Poděkování====
 <HTML> <HTML>
Řádek 340: Řádek 323:
  
  <ul>  <ul>
- <li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a></li>+ <li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> <a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="http://www.project-syndicate.org/default/images/ps_logo-small.png"></a></li>
  <li>slovensko-české konkordance ze <a href="http://korpus.juls.savba.sk/" target="_blank">Slovenského národního korpusu</a> </li>  <li>slovensko-české konkordance ze <a href="http://korpus.juls.savba.sk/" target="_blank">Slovenského národního korpusu</a> </li>
- <li>povídky ve více jazycích z projektu <a href="http://www.goethe.de/ins/cz/prj/m89/csindex.htm" target="_blank">Můj rok 1989</a> z <a href="http://www.goethe.de/ins/cz/pra/" target="_blank">Goethe Institutu</a> + <li>povídky ve více jazycích z projektu <i>Můj rok 1989</i> z <a href="http://www.goethe.de/ins/cz/pra/" target="_blank">Goethe Institutu</a> 
  </li><li>více textů v česko-litevské části korpusu od Patricka Cornesse</li>  </li><li>více textů v česko-litevské části korpusu od Patricka Cornesse</li>
  <li>román George Orwella <i>1984</i> ve více jazycích z korpusu <a href="http://nl.ijs.si/ME/" target="_blank">Multext-East</a></li>   <li>román George Orwella <i>1984</i> ve více jazycích z korpusu <a href="http://nl.ijs.si/ME/" target="_blank">Multext-East</a></li> 
Řádek 348: Řádek 331:
  <li>texty ve více jazycích z korpusu <a href="http://www-korpus.uni-r.de/ParaSol/" target="_blank">ParaSol</a> (připravuje se)</li>   <li>texty ve více jazycích z korpusu <a href="http://www-korpus.uni-r.de/ParaSol/" target="_blank">ParaSol</a> (připravuje se)</li> 
  <li>publicistické texty ve více jazycích ze serveru <a href="http://www.presseurop.eu" target="_blank">Presseurop</a></li>  <li>publicistické texty ve více jazycích ze serveru <a href="http://www.presseurop.eu" target="_blank">Presseurop</a></li>
- <li>právnické texty v jazycích EU z korpusu <a href="http://wt.jrc.it/lt/Acquis/" target="_blank">JRC-ACQUIS</a> (připravuje se)</li>+ <li>právnické texty v jazycích EU z korpusu <a href="https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis" target="_blank">JRC-ACQUIS</a> (připravuje se)</li>
  <li>norské texty z nakladatelství <a href="http://www.aschehoug.no/" target="_blank">Aschehoug &amp; co.</a>, <a href="http://www.cappelendamm.no/" target="_blank">Cappelen Forlag</a> a <a href="http://www.oktober.no/" target="_blank">Forlaget Oktober</a></li>  <li>norské texty z nakladatelství <a href="http://www.aschehoug.no/" target="_blank">Aschehoug &amp; co.</a>, <a href="http://www.cappelendamm.no/" target="_blank">Cappelen Forlag</a> a <a href="http://www.oktober.no/" target="_blank">Forlaget Oktober</a></li>
  </ul>  </ul>
- 
-<a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="img/ProjectSyndycateLogo.jpg"></a> 
  
 <p>Poslední aktualizace: <i>5. října 2011</i></p> <p>Poslední aktualizace: <i>5. října 2011</i></p>
  
 </HTML> </HTML>
 +
 +==== Související odkazy ====
 +
 +<WRAP round box 50%>
 +[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]
 +</WRAP>