AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:intercorp:verze3 [2015/01/29 10:48] michalavacikovacnk:intercorp:verze3 [2015/02/04 10:53] – [Poděkování] vaclavcvrcek
Řádek 51: Řádek 51:
 table.std a:hover { table.std a:hover {
  background: transparent;  background: transparent;
-   +   
 </style> </style>
-<h1>Korpus InterCorp</h1> 
-  
-<p> 
-Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší množství jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. 
-</p> 
  
-<p>Po registraci na stránce <a href="http://korpus.cz/prohlaseni.php">Prohlášení uživatele korpusů ÚČNK</a>  lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete. +</HTML> 
-</p>+=====Korpus InterCorp verze 3===== 
 + 
 +====Přístup textům==== 
 +<HTML>
  
 <p>InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech: <p>InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:
Řádek 71: Řádek 70:
 <ul><li>specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje</li></ul> <ul><li>specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje</li></ul>
  
-<h2>Obsah korpusu</h2>+</HTML> 
 +====Obsah korpusu==== 
 +<HTML> 
  
 <p>InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a>, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.</p>  <p>InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a>, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.</p> 
Řádek 80: Řádek 82:
 tabulce jsou data popisující rozsah zpřístupněné části korpusu, tabulce jsou data popisující rozsah zpřístupněné části korpusu,
 Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou
-již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi InterCorpu č. 3, historii verzí najdete <a href="http://www.korpus.cz/intercorp/?req=page:releaseNotes&amp;lang=cs">zde</a>).</p>+již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi 3, historii verzí najdete <a href="https://wiki.korpus.cz/doku.php/cnk:intercorp:historie">zde</a>).</p>
  
- +</HTML> 
-<table border="1" cellpadding="4" cellspacing="2">+====Velikost korpusu v tisících slov==== 
 +<HTML> 
 +<table class="std">
 <tbody> <tbody>
-<tr> <td align="center" bgcolor="#dbcf95" valign="top"> <b>jazyk</b> </td> <td align="center" bgcolor="#dbcf95" valign="top"> <b>počet&nbsp;slov<br>(v&nbsp;tisících)</b> </td> <td align="center" bgcolor="#dbcf95" valign="top"> <b>počet textů</b> </td> </tr>+<tr> <th> <b>jazyk</b> </th> <th> <b>počet&nbsp;slov<br>(v&nbsp;tisících)</b> </th> <th> <b>počet textů</b> </th> </tr>
 <tr> <td align="left">angličtina</td> <td align="right"> 5 695</td> <td align="right"> Syndicate + 49 </td> </tr> <tr> <td align="left">angličtina</td> <td align="right"> 5 695</td> <td align="right"> Syndicate + 49 </td> </tr>
 <tr> <td align="left">bulharština</td> <td align="right"> 1 135</td> <td align="right"> 15</td> </tr> <tr> <td align="left">bulharština</td> <td align="right"> 1 135</td> <td align="right"> 15</td> </tr>
Řádek 108: Řádek 112:
 <tr> <td align="left">španělština</td> <td align="right"> 10 905 </td> <td align="right"> Syndicate + 108 </td> </tr> <tr> <td align="left">španělština</td> <td align="right"> 10 905 </td> <td align="right"> Syndicate + 108 </td> </tr>
 <tr> <td align="left">švédština</td> <td align="right"> 3 673 </td> <td align="right"> 47 </td> </tr> <tr> <td align="left">švédština</td> <td align="right"> 3 673 </td> <td align="right"> 47 </td> </tr>
-<tr> <td align="left" bgcolor="#dbcf95"> <b>CELKEM</b> </td> <td align="right" bgcolor="#dbcf95"> <b>72 280</b> </td> <td align="right" bgcolor="#dbcf95"> <b>943</b> </td> </tr>+<tr> <th align="left"> CELKEM </th> <th align="right"> 72 280 </th> <th align="right"> 943 </th> </tr>
 <tr> <td align="left">čeština<sup>*)</sup></td> <td align="right"> 41 340</td> <td align="right"> Syndicate + 652</td> </tr> <tr> <td align="left">čeština<sup>*)</sup></td> <td align="right"> 41 340</td> <td align="right"> Syndicate + 652</td> </tr>
 </tbody> </tbody>
Řádek 116: Řádek 120:
  
 <!-- <!--
-<table border="1" cellpadding="4" cellspacing="2">+<table class="std">
 <tbody> <tbody>
-<tr> <td align="center" bgcolor="#dbcf95" valign="top"> <b>jazyk</b> </td> <td align="center" bgcolor="#dbcf95" valign="top"> <b>počet&nbsp;slov (v&nbsp;tis&iacute;c&iacute;ch)</b> </td> <td align="center" bgcolor="#dbcf95" valign="top"> <b>počet textů</b> </td> </tr>+<tr> <td> <b>jazyk</b> </td> <td> <b>počet&nbsp;slov (v&nbsp;tis&iacute;c&iacute;ch)</b> </td> <td> <b>počet textů</b> </td> </tr>
 <tr> <td align="left">čeština</td> <td align="center"> 41 340</td> <td align="center"> Syndicate + 652</td> </tr> <tr> <td align="left">čeština</td> <td align="center"> 41 340</td> <td align="center"> Syndicate + 652</td> </tr>
 </tbody> </tbody>
Řádek 125: Řádek 129:
  
  
 +</HTML>
 +====Morfosyntaktická anotace====
 +<HTML>
  
-<br><h2 class="section">Morfosyntaktická anotace</h2> 
  
 <p>Texty v těchto jazycích jsou opatřeny morfologickou anotací.</p> <p>Texty v těchto jazycích jsou opatřeny morfologickou anotací.</p>
  
-<table border="1" cellpadding="4" cellspacing="2">+<table class="std">
 <tbody> <tbody>
 <tr> <tr>
-<td align="left" bgcolor="#dbcf95" nowrap="nowrap"> <b>jazyk</b></td> +<th align="left"> <b>jazyk</b></td> 
-<td align="center" bgcolor="#dbcf95" nowrap="nowrap"><b>značky</b></td> +<th align="center"><b>značky</b></td> 
-<td align="center" bgcolor="#dbcf95" nowrap="nowrap"><b>lemmata</b></td> +<th align="center"><b>lemmata</b></td> 
-<td align="center" bgcolor="#dbcf95" nowrap="nowrap"><b>stručný popis</b></td> +<th align="center"><b>stručný popis</b></td> 
-<td align="center" bgcolor="#dbcf95" nowrap="nowrap"><b>podrobný popis</b></td> +<th align="center"><b>podrobný popis</b></td> 
-<td align="center" bgcolor="#dbcf95" nowrap="nowrap"><b>nástroj</b></td>+<th align="center"><b>nástroj</b></td>
 </tr> </tr>
 <tr> <tr>
Řádek 262: Řádek 268:
  
  
 +</HTML>
 +====Upozornění====
 +<HTML>
  
- 
-<h2>Upozornění</h2> 
   <p>   <p>
 Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese  Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese 
Řádek 271: Řádek 278:
  
  
 +</HTML>
 +====Poděkování====
 +<HTML>
  
-<h2>Poděkování</h2> 
 <p>Děkujeme za možnost využívat následující software a data:</p> <p>Děkujeme za možnost využívat následující software a data:</p>
-<h3>Předzpracování</h3>+</HTML> 
 +===Předzpracování=== 
 +<HTML> 
  <ul>  <ul>
  <li>větný segmentátor pro češtinu (autor Pavel Květoň)</li>  <li>větný segmentátor pro češtinu (autor Pavel Květoň)</li>
Řádek 281: Řádek 293:
  <li>zarovnávač <a href="http://mokk.bme.hu/resources/hunalign" target="_blank">Hunalign</a></li>  <li>zarovnávač <a href="http://mokk.bme.hu/resources/hunalign" target="_blank">Hunalign</a></li>
  </ul>  </ul>
-<h3>Značkovače / lematizátory:</h3>+</HTML> 
 +===Značkovače / lematizátory:=== 
 +<HTML> 
  <ul>  <ul>
  <li><a href="http://ufal.mff.cuni.cz/morce/" target="_blank">Morče</a> pro češtinu</li>  <li><a href="http://ufal.mff.cuni.cz/morce/" target="_blank">Morče</a> pro češtinu</li>
Řádek 291: Řádek 306:
  <li><a href="http://maximos.aksis.uib.no/Aksis-wiki/Oslo-Bergen_Tagger" target="_blank">analyzátor</a> a <a href="http://omilia.uio.no/obt/" target="_blank">tagger</a> pro norštinu</li>  <li><a href="http://maximos.aksis.uib.no/Aksis-wiki/Oslo-Bergen_Tagger" target="_blank">analyzátor</a> a <a href="http://omilia.uio.no/obt/" target="_blank">tagger</a> pro norštinu</li>
  </ul>  </ul>
-<h3>Korpusový manažer:</h3>+</HTML> 
 +===Korpusový manažer:=== 
 +<HTML> 
  <ul>  <ul>
  <li><a href="http://www.textforge.cz/products" target="_blank">Manatee</a></li>  <li><a href="http://www.textforge.cz/products" target="_blank">Manatee</a></li>
  </ul>  </ul>
-<h3>Data:</h3>+</HTML> 
 +===Data:=== 
 +<HTML> 
  <ul>  <ul>
- <li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a></li>+ <li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> <a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="http://www.project-syndicate.org/default/images/ps_logo-small.png"></a></li>
  <li>slovensko-české konkordance ze <a href="http://korpus.juls.savba.sk/" target="_blank">Slovenského národního korpusu</a> </li>  <li>slovensko-české konkordance ze <a href="http://korpus.juls.savba.sk/" target="_blank">Slovenského národního korpusu</a> </li>
- <li>povídky ve více jazycích z projektu <a href="http://www.goethe.de/ins/cz/prj/m89/csindex.htm" target="_blank">Můj rok 1989</a> z <a href="http://www.goethe.de/ins/cz/pra/" target="_blank">Goethe Institutu</a> + <li>povídky ve více jazycích z projektu <i>Můj rok 1989</i> z <a href="http://www.goethe.de/ins/cz/pra/" target="_blank">Goethe Institutu</a> 
  </li><li>více textů v česko-litevské části korpusu od Patricka Cornesse</li>  </li><li>více textů v česko-litevské části korpusu od Patricka Cornesse</li>
  <li>román George Orwella <i>1984</i> ve více jazycích z korpusu <a href="http://nl.ijs.si/ME/" target="_blank">Multext-East</a></li>   <li>román George Orwella <i>1984</i> ve více jazycích z korpusu <a href="http://nl.ijs.si/ME/" target="_blank">Multext-East</a></li> 
Řádek 308: Řádek 329:
  <li>norské texty z nakladatelství <a href="http://www.aschehoug.no/" target="_blank">Aschehoug &amp; co.</a>, <a href="http://www.cappelendamm.no/" target="_blank">Cappelen Forlag</a> a <a href="http://www.oktober.no/" target="_blank">Forlaget Oktober</a></li>  <li>norské texty z nakladatelství <a href="http://www.aschehoug.no/" target="_blank">Aschehoug &amp; co.</a>, <a href="http://www.cappelendamm.no/" target="_blank">Cappelen Forlag</a> a <a href="http://www.oktober.no/" target="_blank">Forlaget Oktober</a></li>
  </ul>  </ul>
- 
-<a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="img/ProjectSyndycateLogo.jpg"></a> 
  
 <p>Poslední aktualizace: <i>24. února 2011</i></p> <p>Poslední aktualizace: <i>24. února 2011</i></p>
  
 </HTML> </HTML>
 +
 +==== Související odkazy ====
 +
 +<WRAP round box 60%>
 +[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:historie|Historie verzí]]
 +</WRAP>
 +