Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze3 [2015/01/29 14:31]
Michala Vacíková
cnk:intercorp:verze3 [2016/09/02 12:55] (aktuální)
Michal Škrabal [Upozornění]
Řádek 52: Řádek 52:
  background:​ transparent;​  background:​ transparent;​
 }    }   
-/* tabulka velikostí/​průniků */ 
- 
-table.velikosti { 
- font-size: small; 
- border-collapse:​ collapse; 
-} 
- 
-table.velikosti th { 
- font-size: small; 
- font-weight:​ bold; 
- border: 1px black solid; 
- background-color:​ #508CBC; 
- color: #0d2a40; 
-} 
- 
-table.velikosti td { 
- border: 1px black solid; 
- text-align:​ right; 
-} 
- 
-table.velikosti td.diag { 
- background-color:​ #DEE7EC; 
-} 
- 
-table.velikosti td.cs { 
- background-color:​ #98E1E8; 
-} 
  
 </​style>​ </​style>​
  
-<​h1>​Korpus InterCorp</h1> +</HTML
-  +=====Korpus InterCorp ​verze 3=====
-<p+
-Korpus InterCorp ​je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší množství jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. +
-</p>+
  
-<p>Po registraci na stránce <a href="​http://​korpus.cz/​prohlaseni.php">​Prohlášení uživatele korpusů ÚČNK</​a> ​ lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ​ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete. +====Přístup k textům==== 
-</p>+InterCorp má v řadě korpusů budovaných v ÚČNK ​zvláštní postavení hned v několika ohledech:
  
-<p>​InterCorp má v řadě korpusů ​budovaných v ÚČNK zvláštní postavení hned v několika ohledech+  * je ístupný přes rozhraní KonText pomocí speciálního [[kurz:​hledani_v_paralelnim_korpusu|dotazovacího formuláře]] 
-</p>+  * specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních ​korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje (verze jsou ovšem od roku 2014 zpětně dostupné) 
 +====Obsah korpusu==== 
 +<HTML>
  
-<​ul><​li>​ je přístupný přes speciální rozhraní <a href="​http://​www.korpus.cz/​Park/"​ target="​_blank">​Park</​a>,​ které je naší nadstavbou nad  systémem Manatee Pavla Rychlého; stručný návod k použití Parku najdete <a href="​http://​www.korpus.cz/​intercorp/?​req=page:​manual&​amp;​lang=cs">​zde</​a>;​ autorem Parku je Michal Štourač</​li></​ul>​ 
- 
-<​ul><​li><​a href="​http://​www.korpus.cz/​corpora/​intercorp/"​ target="​_blank">​jednojazyčné</​a>​ verze všech paralelních korpusů jsou zpřístupněné pomocí webové verze rozhraní Bonito, takže je možné na korpusy jednotlivých jazyků používat standardní nástroje, jako jsou filtry, třídění,​ kolokace, frekvenční distribuce, náhodné vzorky atd.; stejně jako se všemi cizojazyčnými korpusy je navíc možné pracovat i s odpovídajícími verzemi češtiny</​li></​ul>​ 
- 
-<​ul><​li>​specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje</​li></​ul>​ 
- 
-<​h2>​Obsah korpusu</​h2>​ 
  
 <​p>​InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek <a href="​http://​www.project-syndicate.org/"​ target="​_blank">​Project Syndicate</​a>,​ zatím jde o české, anglické, francouzské,​ německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky,​ v konkordancích tedy může být více vět, které si navzájem neodpovídají.</​p> ​ <​p>​InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek <a href="​http://​www.project-syndicate.org/"​ target="​_blank">​Project Syndicate</​a>,​ zatím jde o české, anglické, francouzské,​ německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky,​ v konkordancích tedy může být více vět, které si navzájem neodpovídají.</​p> ​
Řádek 109: Řádek 74:
 tabulce jsou data popisující rozsah zpřístupněné části korpusu, tabulce jsou data popisující rozsah zpřístupněné části korpusu,
 Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou
-již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi InterCorpu č. 3, historii verzí najdete <a href="http://www.korpus.cz/intercorp/?req=page:releaseNotes&​amp;​lang=cs">​zde</​a>​).</​p>​+již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi 3, historii verzí najdete <a href="https://wiki.korpus.cz/doku.php/cnk:intercorp:​historie">​zde</​a>​).</​p>​
  
- +</HTML> 
-<table border="​1"​ cellpadding="​4"​ cellspacing="2">+====Velikost korpusu v tisících slov==== 
 +<​HTML>​ 
 +<table class="std">
 <​tbody>​ <​tbody>​
-<tr> <td align="​center"​ bgcolor="#​dbcf95"​ valign="​top"​> <​b>​jazyk</​b>​ </td> <td align="​center"​ bgcolor="#​dbcf95"​ valign="​top"​> <​b>​počet&​nbsp;​slov<​br>​(v&​nbsp;​tisících)</​b>​ </td> <td align="​center"​ bgcolor="#​dbcf95"​ valign="​top"​> <​b>​počet textů</​b>​ </td> </tr>+<tr> <th> <​b>​jazyk</​b>​ </th> <th> <​b>​počet&​nbsp;​slov<​br>​(v&​nbsp;​tisících)</​b>​ </th> <th> <​b>​počet textů</​b>​ </th> </tr>
 <tr> <td align="​left">​angličtina</​td>​ <td align="​right">​ 5 695</​td>​ <td align="​right">​ Syndicate + 49 </td> </tr> <tr> <td align="​left">​angličtina</​td>​ <td align="​right">​ 5 695</​td>​ <td align="​right">​ Syndicate + 49 </td> </tr>
 <tr> <td align="​left">​bulharština</​td>​ <td align="​right">​ 1 135</​td>​ <td align="​right">​ 15</​td>​ </tr> <tr> <td align="​left">​bulharština</​td>​ <td align="​right">​ 1 135</​td>​ <td align="​right">​ 15</​td>​ </tr>
Řádek 137: Řádek 104:
 <tr> <td align="​left">​španělština</​td>​ <td align="​right">​ 10 905 </td> <td align="​right">​ Syndicate + 108 </td> </tr> <tr> <td align="​left">​španělština</​td>​ <td align="​right">​ 10 905 </td> <td align="​right">​ Syndicate + 108 </td> </tr>
 <tr> <td align="​left">​švédština</​td>​ <td align="​right">​ 3 673 </td> <td align="​right">​ 47 </td> </tr> <tr> <td align="​left">​švédština</​td>​ <td align="​right">​ 3 673 </td> <td align="​right">​ 47 </td> </tr>
-<tr> <td align="​left" ​bgcolor="#​dbcf95">​ <b>​CELKEM</​b> </td> <​td ​align="​right" ​bgcolor="#​dbcf95">​ <b>72 280</b> </td> <​td ​align="​right" bgcolor="#​dbcf95"> <b>​943</​b> </td> </tr>+<tr> <th align="​left">​ CELKEM </th> <th align="​right">​ 72 280 </th> <th align="​right">​ 943 </th> </tr>
 <tr> <td align="​left">​čeština<​sup>​*)</​sup></​td>​ <td align="​right">​ 41 340</​td>​ <td align="​right">​ Syndicate + 652</​td>​ </tr> <tr> <td align="​left">​čeština<​sup>​*)</​sup></​td>​ <td align="​right">​ 41 340</​td>​ <td align="​right">​ Syndicate + 652</​td>​ </tr>
 </​tbody>​ </​tbody>​
Řádek 145: Řádek 112:
  
 <!-- <!--
-<​table ​border="1" cellpadding="​4"​ cellspacing="​2">+<​table ​class="std">
 <​tbody>​ <​tbody>​
-<tr> <​td ​align="​center"​ bgcolor="#​dbcf95"​ valign="​top"​> <​b>​jazyk</​b>​ </td> <​td ​align="​center"​ bgcolor="#​dbcf95"​ valign="​top"​> <​b>​počet&​nbsp;​slov (v&​nbsp;​tis&​iacute;​c&​iacute;​ch)</​b>​ </td> <​td ​align="​center"​ bgcolor="#​dbcf95"​ valign="​top"​> <​b>​počet textů</​b>​ </td> </tr>+<tr> <td> <​b>​jazyk</​b>​ </td> <td> <​b>​počet&​nbsp;​slov (v&​nbsp;​tis&​iacute;​c&​iacute;​ch)</​b>​ </td> <td> <​b>​počet textů</​b>​ </td> </tr>
 <tr> <td align="​left">​čeština</​td>​ <td align="​center">​ 41 340</​td>​ <td align="​center">​ Syndicate + 652</​td>​ </tr> <tr> <td align="​left">​čeština</​td>​ <td align="​center">​ 41 340</​td>​ <td align="​center">​ Syndicate + 652</​td>​ </tr>
 </​tbody>​ </​tbody>​
Řádek 154: Řádek 121:
  
  
 +</​HTML>​
 +====Morfosyntaktická anotace====
 +<​HTML>​
  
-<​br><​h2 class="​section">​Morfosyntaktická anotace</​h2>​ 
  
 <​p>​Texty v těchto jazycích jsou opatřeny morfologickou anotací.</​p>​ <​p>​Texty v těchto jazycích jsou opatřeny morfologickou anotací.</​p>​
  
-<​table ​border="1" cellpadding="​4"​ cellspacing="​2">+<​table ​class="std">
 <​tbody>​ <​tbody>​
 <tr> <tr>
-<td align="​left" bgcolor="#​dbcf95"​ nowrap="​nowrap"> <​b>​jazyk</​b></​td>​ +<th align="​left">​ <​b>​jazyk</​b></​td>​ 
-<td align="​center" bgcolor="#​dbcf95"​ nowrap="​nowrap"><​b>​značky</​b></​td>​ +<th align="​center"><​b>​značky</​b></​td>​ 
-<td align="​center" bgcolor="#​dbcf95"​ nowrap="​nowrap"><​b>​lemmata</​b></​td>​ +<th align="​center"><​b>​lemmata</​b></​td>​ 
-<td align="​center" bgcolor="#​dbcf95"​ nowrap="​nowrap"><​b>​stručný popis</​b></​td>​ +<th align="​center"><​b>​stručný popis</​b></​td>​ 
-<td align="​center" bgcolor="#​dbcf95"​ nowrap="​nowrap"><​b>​podrobný popis</​b></​td>​ +<th align="​center"><​b>​podrobný popis</​b></​td>​ 
-<td align="​center" bgcolor="#​dbcf95"​ nowrap="​nowrap"><​b>​nástroj</​b></​td>​+<th align="​center"><​b>​nástroj</​b></​td>​
 </tr> </tr>
 <tr> <tr>
Řádek 188: Řádek 157:
 <td align="​center"​ nowrap="​nowrap">​✔</​td>​ <td align="​center"​ nowrap="​nowrap">​✔</​td>​
 <td align="​center"​ nowrap="​nowrap">​✔</​td>​ <td align="​center"​ nowrap="​nowrap">​✔</​td>​
-<td align="​center"​ nowrap="​nowrap"><​a href="​http://​korpus.cz/​bonito/​znacky.php">​česky</​a>​ <a href="​http://​ufal.mff.cuni.cz/​pdt/​Morphology_and_Tagging/​Doc/​hmptagqr.html">​anglicky</​a>​ *)</​td>​+<td align="​center"​ nowrap="​nowrap"><​a href="​http://​wiki.korpus.cz/doku.php/​seznamy:​tagy">​česky</​a>​ <a href="​http://​ufal.mff.cuni.cz/​pdt/​Morphology_and_Tagging/​Doc/​hmptagqr.html">​anglicky</​a>​ *)</​td>​
 <td align="​center"​ nowrap="​nowrap"><​a href="​http://​ufal.mff.cuni.cz/​pdt/​Morphology_and_Tagging/​Doc/​docc0pos.ps">​anglicky</​a></​td>​ <td align="​center"​ nowrap="​nowrap"><​a href="​http://​ufal.mff.cuni.cz/​pdt/​Morphology_and_Tagging/​Doc/​docc0pos.ps">​anglicky</​a></​td>​
 <td align="​center"​ nowrap="​nowrap"><​a href="​http://​ufal.mff.cuni.cz/​morce/">​Morče</​a></​td>​ <td align="​center"​ nowrap="​nowrap"><​a href="​http://​ufal.mff.cuni.cz/​morce/">​Morče</​a></​td>​
Řádek 291: Řádek 260:
  
  
 +</​HTML>​
  
 +====Poděkování====
 +<​HTML>​
  
-<​h2>​Upozornění</​h2>​ 
-  <p> 
-Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese ​ 
-</p> 
-<​p><​img src="​http://​ucnk.ff.cuni.cz/​intercorp/​img/​adresy/​mava_a.gif"></​p>​ 
- 
- 
- 
-<​h2>​Poděkování</​h2>​ 
 <​p>​Děkujeme za možnost využívat následující software a data:</​p>​ <​p>​Děkujeme za možnost využívat následující software a data:</​p>​
-<h3>​Předzpracování<​/h3>+</HTML> 
 +===Předzpracování=== 
 +<HTML> 
  <ul>  <ul>
  <​li>​větný segmentátor pro češtinu (autor Pavel Květoň)</​li>​  <​li>​větný segmentátor pro češtinu (autor Pavel Květoň)</​li>​
Řádek 310: Řádek 276:
  <​li>​zarovnávač <a href="​http://​mokk.bme.hu/​resources/​hunalign"​ target="​_blank">​Hunalign</​a></​li>​  <​li>​zarovnávač <a href="​http://​mokk.bme.hu/​resources/​hunalign"​ target="​_blank">​Hunalign</​a></​li>​
  </​ul>​  </​ul>​
-<h3>​Značkovače / lematizátory:<​/h3>+</HTML> 
 +===Značkovače / lematizátory:​=== 
 +<HTML> 
  <ul>  <ul>
  <​li><​a href="​http://​ufal.mff.cuni.cz/​morce/"​ target="​_blank">​Morče</​a>​ pro češtinu</​li>​  <​li><​a href="​http://​ufal.mff.cuni.cz/​morce/"​ target="​_blank">​Morče</​a>​ pro češtinu</​li>​
Řádek 320: Řádek 289:
  <​li><​a href="​http://​maximos.aksis.uib.no/​Aksis-wiki/​Oslo-Bergen_Tagger"​ target="​_blank">​analyzátor</​a>​ a <a href="​http://​omilia.uio.no/​obt/"​ target="​_blank">​tagger</​a>​ pro norštinu</​li>​  <​li><​a href="​http://​maximos.aksis.uib.no/​Aksis-wiki/​Oslo-Bergen_Tagger"​ target="​_blank">​analyzátor</​a>​ a <a href="​http://​omilia.uio.no/​obt/"​ target="​_blank">​tagger</​a>​ pro norštinu</​li>​
  </​ul>​  </​ul>​
-<h3>​Korpusový manažer:<​/h3>+</HTML> 
 +===Korpusový manažer:=== 
 +<HTML> 
  <ul>  <ul>
  <​li><​a href="​http://​www.textforge.cz/​products"​ target="​_blank">​Manatee</​a></​li>​  <​li><​a href="​http://​www.textforge.cz/​products"​ target="​_blank">​Manatee</​a></​li>​
  </​ul>​  </​ul>​
-<h3>​Data:<​/h3>+</HTML> 
 +===Data:=== 
 +<HTML> 
  <ul>  <ul>
- <​li>​publicistické texty ve více jazycích z webových stránek <a href="​http://​www.project-syndicate.org/"​ target="​_blank">​Project Syndicate</​a></​li>​+ <​li>​publicistické texty ve více jazycích z webových stránek <a href="​http://​www.project-syndicate.org/"​ target="​_blank">​Project Syndicate</a> <a id="​logo"​ href="​http://​www.project-syndicate.org/"><​img class="​nodeco"​ alt="​The highest quality commentaries and analysis from distinguished voices across the world."​ title="​The highest quality commentaries and analysis from distinguished voices across the world."​ src="​http://​www.project-syndicate.org/​default/​images/​ps_logo-small.png">​</​a></​li>​
  <​li>​slovensko-české konkordance ze <a href="​http://​korpus.juls.savba.sk/"​ target="​_blank">​Slovenského národního korpusu</​a>​ </li>  <​li>​slovensko-české konkordance ze <a href="​http://​korpus.juls.savba.sk/"​ target="​_blank">​Slovenského národního korpusu</​a>​ </li>
- <​li>​povídky ve více jazycích z projektu <a href="​http://​www.goethe.de/​ins/​cz/​prj/​m89/​csindex.htm"​ target="​_blank"​>Můj rok 1989</a> z <a href="​http://​www.goethe.de/​ins/​cz/​pra/"​ target="​_blank">​Goethe Institutu</​a> ​+ <​li>​povídky ve více jazycích z projektu <i>Můj rok 1989</i> z <a href="​http://​www.goethe.de/​ins/​cz/​pra/"​ target="​_blank">​Goethe Institutu</​a> ​
  </​li><​li>​více textů v česko-litevské části korpusu od Patricka Cornesse</​li>​  </​li><​li>​více textů v česko-litevské části korpusu od Patricka Cornesse</​li>​
  <​li>​román George Orwella <​i>​1984</​i>​ ve více jazycích z korpusu <a href="​http://​nl.ijs.si/​ME/"​ target="​_blank">​Multext-East</​a></​li> ​  <​li>​román George Orwella <​i>​1984</​i>​ ve více jazycích z korpusu <a href="​http://​nl.ijs.si/​ME/"​ target="​_blank">​Multext-East</​a></​li> ​
Řádek 337: Řádek 312:
  <​li>​norské texty z nakladatelství <a href="​http://​www.aschehoug.no/"​ target="​_blank">​Aschehoug &amp; co.</​a>,​ <a href="​http://​www.cappelendamm.no/"​ target="​_blank">​Cappelen Forlag</​a>​ a <a href="​http://​www.oktober.no/"​ target="​_blank">​Forlaget Oktober</​a></​li>​  <​li>​norské texty z nakladatelství <a href="​http://​www.aschehoug.no/"​ target="​_blank">​Aschehoug &amp; co.</​a>,​ <a href="​http://​www.cappelendamm.no/"​ target="​_blank">​Cappelen Forlag</​a>​ a <a href="​http://​www.oktober.no/"​ target="​_blank">​Forlaget Oktober</​a></​li>​
  </​ul>​  </​ul>​
- 
-<a id="​logo"​ href="​http://​www.project-syndicate.org/"><​img class="​nodeco"​ alt="​The highest quality commentaries and analysis from distinguished voices across the world."​ title="​The highest quality commentaries and analysis from distinguished voices across the world."​ src="​img/​ProjectSyndycateLogo.jpg"></​a>​ 
  
 <​p>​Poslední aktualizace:​ <​i>​24. února 2011</​i></​p>​ <​p>​Poslední aktualizace:​ <​i>​24. února 2011</​i></​p>​
  
 </​HTML>​ </​HTML>​
 +
 +==== Související odkazy ====
 +
 +<WRAP round box 50%>
 +[[cnk:​intercorp|InterCorp]] • [[cnk:​intercorp:​verze7|Verze 7]] • [[cnk:​intercorp:​verze6|Verze 6]] • [[cnk:​intercorp:​verze5|Verze 5]] • [[cnk:​intercorp:​verze4|Verze 4]] • [[cnk:​intercorp:​historie|Historie verzí]]
 +</​WRAP>​
 +