AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze4 [2015/01/29 14:30] michalavacikovacnk:intercorp:verze4 [2017/07/10 09:18] (aktuální) – [Poděkování] Michal Škrabal
Řádek 84: Řádek 84:
 </HTML> </HTML>
 =====Korpus InterCorp verze 4===== =====Korpus InterCorp verze 4=====
-<HTML> 
-  
-<p> 
-Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší množství jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. 
-</p> 
  
-<p>Po registraci na stránce <a href="http://korpus.cz/prohlaseni.php">Prohlášení uživatele korpusů ÚČNK</a>  lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete. +====Přístup textům====
-</p>+
  
-<p>InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech: +InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:
-</p>+
  
-<ul><li> je přístupný přes speciální rozhraní <a href="http://www.korpus.cz/Park/" target="_blank">Park</a>, které je naší nadstavbou nad  systémem Manatee Pavla Rychlého; stručný návod k použití Parku najdete <a href="http://www.korpus.cz/intercorp/?req=page:manual&amp;lang=cs">zde</a>; autorem Parku je Michal Štourač</li></ul> +  * je přístupný přes rozhraní KonText pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] 
- +  specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje (verze jsou ovšem od roku 2014 zpětně dostupné)
-<ul><li><a href="http://www.korpus.cz/corpora/intercorp/" target="_blank">jednojazyčné</a> verze všech paralelních korpusů jsou zpřístupněné pomocí webové verze rozhraní Bonito, takžje možné na korpusy jednotlivých jazyků používat standardní nástroje, jako jsou filtry, třídění, kolokace, frekvenční distribuce, náhodné vzorky atd.; stejně jako se všemi cizojazyčnými korpusy je navíc možné pracovat i s odpovídajícími verzemi češtiny</li></ul> +
- +
-<ul><li>specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje</li></ul> +
- +
-</HTML>+
 ====Obsah korpusu==== ====Obsah korpusu====
 <HTML> <HTML>
Řádek 112: Řádek 100:
 je tedy tzv. pivot, česká verze textu (originál nebo překlad) je je tedy tzv. pivot, česká verze textu (originál nebo překlad) je
 zarovnaná s jednou nebo více verzemi cizojazyčnými. zarovnaná s jednou nebo více verzemi cizojazyčnými.
-Celkový rozsah zpřístupněné části korpusu ve verzi InterCorp č. 4 (historii verzí najdete <a href="http://www.korpus.cz/intercorp/?req=page:releaseNotes&amp;lang=cs">zde</a>) ze září 2011 je 92 290 000 slov v zarovnaných cizojazyčných textech.+Celkový rozsah zpřístupněné části korpusu ve verzi 4 (historii verzí najdete <a href="https://wiki.korpus.cz/doku.php/cnk:intercorp:historie">zde</a>) ze září 2011 je 92 290 000 slov v zarovnaných cizojazyčných textech.
 V tomto celkovém počtu slov jsou již započteny zhruba 2,3 - 3 miliony slov z Project Syndicate (pro tyto jazyky: cs, de, en, es, fr, ru) a okolo 0,8 milionu slov z Presseurop (pro tyto jazyky: cs, de, en, es, fr, it, nl, pl, pt, ro), což je přehledně vidět na následujícím grafu. Pod souhrnným názvem "beletrie" jsou v něm zahrnuty všechny ručně zarovnané texty, které jsou z velké většiny tvořeny právě beletrii. Velikost je udávána v milionech slov.</p> V tomto celkovém počtu slov jsou již započteny zhruba 2,3 - 3 miliony slov z Project Syndicate (pro tyto jazyky: cs, de, en, es, fr, ru) a okolo 0,8 milionu slov z Presseurop (pro tyto jazyky: cs, de, en, es, fr, it, nl, pl, pt, ro), což je přehledně vidět na následujícím grafu. Pod souhrnným názvem "beletrie" jsou v něm zahrnuty všechny ručně zarovnané texty, které jsou z velké většiny tvořeny právě beletrii. Velikost je udávána v milionech slov.</p>
  
 <img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts_v4.png" alt="Graf složení korpusů jednotlivých jazyků" title="Složení korpusů jednotlivých jazyků"> <img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts_v4.png" alt="Graf složení korpusů jednotlivých jazyků" title="Složení korpusů jednotlivých jazyků">
- +<br
-<!-- STAZENO +<br> 
- +</HTML
-<table border="1" cellpadding="4" cellspacing="2"+====Velikost korpusu tisících slov==== 
-<tbody> +<HTML>
-<tr> <td align="center" bgcolor="#dbcf95" valign="top"> <b>jazyk</b> </td> <td align="center" bgcolor="#dbcf95" valign="top"> <b>počet&nbsp;slov v&nbsp;tis&iacute;c&iacute;ch</b><br>(včetně Syndicate a Presseurop) </td> <td align="center" bgcolor="#dbcf95" valign="top"> <b>počet textů</b><br>(bez Syndicate a Presseurop)</td> </tr+
-<tr> <td align="left">angličtina</td> <td align="right"> 7 297</td> <td align="right"> 49</td> </tr+
-<tr> <td align="left">bulhar&scaron;tina</td> <td align="right"> 1 135</td> <td align="right"> 15</td> </tr> +
-<tr> <td align="left">d&aacute;n&scaron;tina</td> <td align="right"> 190</td> <td align="right"> 5</td> </tr> +
-<tr> <td align="left">fin&scaron;tina</td> <td align="right"> 1 435</td> <td align="right"> 22</td> </tr> +
-<tr> <td align="left">francouz&scaron;tina</td> <td align="right"> 5 234</td> <td align="right"> 24 </td> </tr> +
-<tr> <td align="left">chorvat&scaron;tina</td> <td align="right"> 6 735</td> <td align="right"> 96</td> </tr> +
-<tr> <td align="left">ital&scaron;tina</td> <td align="right"> 4 028 </td> <td align="right"> 31 </td> </tr> +
-<tr> <td align="left">litev&scaron;tina </td> <td align="right"> 358</td> <td align="right"> 17</td> </tr> +
-<tr> <td align="left">loty&scaron;tina</td> <td align="right"> 1 075</td> <td align="right"> 32</td> </tr> +
-<tr> <td align="left">maďar&scaron;tina</td> <td align="right"> 1 123 </td> <td align="right"> 17 </td> </tr> +
-<tr> <td align="left">němčina </td> <td align="right"> 12 167 </td> <td align="right"> 125 </td> </tr> +
-<tr> <td align="left">nizozem&scaron;tina</td> <td align="right"> 5 203</td> <td align="right"> 62</td> </tr> +
-<tr> <td align="left">nor&scaron;tina</td> <td align="right"> 2 158</td> <td align="right"> 21</td> </tr> +
-<tr> <td align="left">pol&scaron;tina </td> <td align="right"> 6 173</td> <td align="right"> 92</td> </tr> +
-<tr> <td align="left">portugal&scaron;tina</td> <td align="right"> 2 503 </td> <td align="right"> 20 </td> </tr> +
-<tr> <td align="left">rumun&scaron;tina </td> <td align="right"> 1 697</td> <td align="right"> 9</td> </tr> +
-<tr> <td align="left">ru&scaron;tina</td> <td align="right"> 3 619 </td> <td align="right"> 25 </td> </tr> +
-<tr> <td align="left">sloven&scaron;tina</td> <td align="right"> 6 961</td> <td align="right"> 139</td> </tr> +
-<tr> <td align="left">slovin&scaron;tina</td> <td align="right"> 992</td> <td align="right"> 16</td> </tr> +
-<tr> <td align="left">srb&scaron;tina</td> <td align="right"> 2 736</td> <td align="right"> 38</td> </tr> +
-<tr> <td align="left">&scaron;paněl&scaron;tina</td> <td align="right"> 14 237 </td> <td align="right"> 126 </td> </tr> +
-<tr> <td align="left">&scaron;v&eacute;d&scaron;tina</td> <td align="right"> 5 234 </td> <td align="right"> 64 </td> </tr> +
-<tr> <td align="left" bgcolor="#dbcf95"> <b>CELKEM</b> </td> <td align="right" bgcolor="#dbcf95"> <b>92 290</b> </td> <td align="right" bgcolor="#dbcf95"> <b>1 045</b> </td> </tr> +
-<tr> <td align="left">čeština<sup>*)</sup></td> <td align="right"> 46 196</td> <td align="right"> 703</td> </tr> +
-</tbody> +
-</table>  +
- +
-<p>*) U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.</p> +
- +
--->+
  
 <p>Následující tabulka ukazuje přehled velikostí jednotlivých paralelních korpusů různých jazyků. V řádku jsou uvedeny počty slov příslušného jazyka (v tisících), platné pro průnik s jazykem uvedeným ve sloupci. Např. virtuální bulharsko-chorvatský korpus (1. řádek - "bg") obsahuje celkem 187 tisíc slov v bulharštině (1. řádek - "bg", 9. sloupec – "hr") a 189 tisíc slov v chorvatštině (9. řádek – "hr", 1. sloupec – "bg"). Druhý, zvýrazněný sloupec ukazuje množství slov zarovnaných vůči češtině, a tedy i celkovou velikost jednojazyčného korpusu jazyka uvedeného na příslušném řádku.</p> <p>Následující tabulka ukazuje přehled velikostí jednotlivých paralelních korpusů různých jazyků. V řádku jsou uvedeny počty slov příslušného jazyka (v tisících), platné pro průnik s jazykem uvedeným ve sloupci. Např. virtuální bulharsko-chorvatský korpus (1. řádek - "bg") obsahuje celkem 187 tisíc slov v bulharštině (1. řádek - "bg", 9. sloupec – "hr") a 189 tisíc slov v chorvatštině (9. řádek – "hr", 1. sloupec – "bg"). Druhý, zvýrazněný sloupec ukazuje množství slov zarovnaných vůči češtině, a tedy i celkovou velikost jednojazyčného korpusu jazyka uvedeného na příslušném řádku.</p>
  
-<!-- 
- 
-<p>Následující tabulka ukazuje přehled velikostí vzájemných průniků jednotlivých paralelních korpusů různých jazyků. Objem dat je uveden v tisících slov. Druhý, zvýrazněný sloupec ukazuje množství slov zarovnaných vůči češtině, a tedy i celkovou velikost korpusu daného jazyka. Čísla v každém řádku uvádějí, kolik tisíc slov z korpusu daného jazyka je součástí textů společných s korpusem jazyka uvedenému v záhlaví každého sloupce. Např. bulharský korpus (první řádka - "bg") obsahuje 187 tisíc slov v textech současně dostupných také v chorvatštině (9. sloupec - "hr"), a chorvatský korpus (9. řádka - "hr") obsahuje 189 tisíc slov v textech současně dostupných v bulharštině (první sloupec - "bg"). Virtuální bulharsko-chorvatský paralelní korpus tedy obsahuje 187 tisíc bulharských a 189 tisíc chorvatských slov.</p> 
- 
---> 
  
 <table class="velikosti"> <table class="velikosti">
Řádek 188: Řádek 140:
 </tbody></table> </tbody></table>
  
-<!-- 
-<p>Následující graf ukazuje složení jednotlivých jazykových verzí podle zdrojů. Velikost je udávána v milionech slov. Pod souhrnným názvem "beletrie" jsou zahrnuty všechny ručně zarovnané texty, které jsou z velké většiny tvořeny právě beletrii.</p> 
- 
-<img src="img/intercorp_wordcounts.png" alt="Graf složení korpusů jednotlivých jazyků" title="Složení korpusů jednotlivých jazyků"/> 
---> 
- 
-<!-- 
-<table class="std"> 
-<tbody> 
-<tr> <td> <b>jazyk</b> </td> <td> <b>počet&nbsp;slov (v&nbsp;tis&iacute;c&iacute;ch)</b> </td> <td> <b>počet textů</b> </td> </tr> 
-<tr> <td align="left">čeština</td> <td align="center"> 41 340</td> <td align="center"> Syndicate + 652</td> </tr> 
-</tbody> 
-</table>  
---> 
  
 </HTML> </HTML>
Řádek 239: Řádek 177:
 <td align="center" nowrap="nowrap">✔</td> <td align="center" nowrap="nowrap">✔</td>
 <td align="center" nowrap="nowrap">✔</td> <td align="center" nowrap="nowrap">✔</td>
-<td align="center" nowrap="nowrap"><a href="http://korpus.cz/bonito/znacky.php">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html">anglicky</a> *)</td>+<td align="center" nowrap="nowrap"><a href="http://wiki.korpus.cz/doku.php/seznamy:tagy">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html">anglicky</a> *)</td>
 <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.ps">anglicky</a></td> <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.ps">anglicky</a></td>
 <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/">Morče</a></td> <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/">Morče</a></td>
Řádek 344: Řádek 282:
  
 </HTML> </HTML>
-====Upozornění==== 
-<HTML> 
  
-  <p> 
-Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese  
-</p> 
-<p><img src="http://ucnk.ff.cuni.cz/intercorp/img/adresy/mava_a.gif"></p> 
- 
- 
-</HTML> 
 ====Poděkování==== ====Poděkování====
 <HTML> <HTML>
Řádek 394: Řádek 323:
  
  <ul>  <ul>
- <li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a></li>+ <li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> <a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="http://www.project-syndicate.org/default/images/ps_logo-small.png"></a></li>
  <li>slovensko-české konkordance ze <a href="http://korpus.juls.savba.sk/" target="_blank">Slovenského národního korpusu</a> </li>  <li>slovensko-české konkordance ze <a href="http://korpus.juls.savba.sk/" target="_blank">Slovenského národního korpusu</a> </li>
- <li>povídky ve více jazycích z projektu <a href="http://www.goethe.de/ins/cz/prj/m89/csindex.htm" target="_blank">Můj rok 1989</a> z <a href="http://www.goethe.de/ins/cz/pra/" target="_blank">Goethe Institutu</a> + <li>povídky ve více jazycích z projektu <i>Můj rok 1989</i> z <a href="http://www.goethe.de/ins/cz/pra/" target="_blank">Goethe Institutu</a> 
  </li><li>více textů v česko-litevské části korpusu od Patricka Cornesse</li>  </li><li>více textů v česko-litevské části korpusu od Patricka Cornesse</li>
  <li>román George Orwella <i>1984</i> ve více jazycích z korpusu <a href="http://nl.ijs.si/ME/" target="_blank">Multext-East</a></li>   <li>román George Orwella <i>1984</i> ve více jazycích z korpusu <a href="http://nl.ijs.si/ME/" target="_blank">Multext-East</a></li> 
Řádek 402: Řádek 331:
  <li>texty ve více jazycích z korpusu <a href="http://www-korpus.uni-r.de/ParaSol/" target="_blank">ParaSol</a> (připravuje se)</li>   <li>texty ve více jazycích z korpusu <a href="http://www-korpus.uni-r.de/ParaSol/" target="_blank">ParaSol</a> (připravuje se)</li> 
  <li>publicistické texty ve více jazycích ze serveru <a href="http://www.presseurop.eu" target="_blank">Presseurop</a></li>  <li>publicistické texty ve více jazycích ze serveru <a href="http://www.presseurop.eu" target="_blank">Presseurop</a></li>
- <li>právnické texty v jazycích EU z korpusu <a href="http://wt.jrc.it/lt/Acquis/" target="_blank">JRC-ACQUIS</a> (připravuje se)</li>+ <li>právnické texty v jazycích EU z korpusu <a href="https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis" target="_blank">JRC-ACQUIS</a> (připravuje se)</li>
  <li>norské texty z nakladatelství <a href="http://www.aschehoug.no/" target="_blank">Aschehoug &amp; co.</a>, <a href="http://www.cappelendamm.no/" target="_blank">Cappelen Forlag</a> a <a href="http://www.oktober.no/" target="_blank">Forlaget Oktober</a></li>  <li>norské texty z nakladatelství <a href="http://www.aschehoug.no/" target="_blank">Aschehoug &amp; co.</a>, <a href="http://www.cappelendamm.no/" target="_blank">Cappelen Forlag</a> a <a href="http://www.oktober.no/" target="_blank">Forlaget Oktober</a></li>
  </ul>  </ul>
- 
-<a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="img/ProjectSyndycateLogo.jpg"></a> 
  
 <p>Poslední aktualizace: <i>5. října 2011</i></p> <p>Poslední aktualizace: <i>5. října 2011</i></p>
  
 </HTML> </HTML>
 +
 +==== Související odkazy ====
 +
 +<WRAP round box 50%>
 +[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]
 +</WRAP>