Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:intercorp:verze3 [2015/01/29 10:48] – michalavacikova | cnk:intercorp:verze3 [2015/02/04 10:53] – [Poděkování] vaclavcvrcek |
---|
table.std a:hover { | table.std a:hover { |
background: transparent; | background: transparent; |
} | } |
</style> | </style> |
<h1>Korpus InterCorp</h1> | |
| |
<p> | |
Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší množství jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. | |
</p> | |
| |
<p>Po registraci na stránce <a href="http://korpus.cz/prohlaseni.php">Prohlášení uživatele korpusů ÚČNK</a> lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete. | </HTML> |
</p> | =====Korpus InterCorp verze 3===== |
| |
| ====Přístup k textům==== |
| <HTML> |
| |
<p>InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech: | <p>InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech: |
<ul><li>specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje</li></ul> | <ul><li>specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje</li></ul> |
| |
<h2>Obsah korpusu</h2> | </HTML> |
| ====Obsah korpusu==== |
| <HTML> |
| |
<p>InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a>, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.</p> | <p>InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a>, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.</p> |
tabulce jsou data popisující rozsah zpřístupněné části korpusu, | tabulce jsou data popisující rozsah zpřístupněné části korpusu, |
Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou | Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou |
již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi InterCorpu č. 3, historii verzí najdete <a href="http://www.korpus.cz/intercorp/?req=page:releaseNotes&lang=cs">zde</a>).</p> | již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi 3, historii verzí najdete <a href="https://wiki.korpus.cz/doku.php/cnk:intercorp:historie">zde</a>).</p> |
| |
| </HTML> |
<table border="1" cellpadding="4" cellspacing="2"> | ====Velikost korpusu v tisících slov==== |
| <HTML> |
| <table class="std"> |
<tbody> | <tbody> |
<tr> <td align="center" bgcolor="#dbcf95" valign="top"> <b>jazyk</b> </td> <td align="center" bgcolor="#dbcf95" valign="top"> <b>počet slov<br>(v tisících)</b> </td> <td align="center" bgcolor="#dbcf95" valign="top"> <b>počet textů</b> </td> </tr> | <tr> <th> <b>jazyk</b> </th> <th> <b>počet slov<br>(v tisících)</b> </th> <th> <b>počet textů</b> </th> </tr> |
<tr> <td align="left">angličtina</td> <td align="right"> 5 695</td> <td align="right"> Syndicate + 49 </td> </tr> | <tr> <td align="left">angličtina</td> <td align="right"> 5 695</td> <td align="right"> Syndicate + 49 </td> </tr> |
<tr> <td align="left">bulharština</td> <td align="right"> 1 135</td> <td align="right"> 15</td> </tr> | <tr> <td align="left">bulharština</td> <td align="right"> 1 135</td> <td align="right"> 15</td> </tr> |
<tr> <td align="left">španělština</td> <td align="right"> 10 905 </td> <td align="right"> Syndicate + 108 </td> </tr> | <tr> <td align="left">španělština</td> <td align="right"> 10 905 </td> <td align="right"> Syndicate + 108 </td> </tr> |
<tr> <td align="left">švédština</td> <td align="right"> 3 673 </td> <td align="right"> 47 </td> </tr> | <tr> <td align="left">švédština</td> <td align="right"> 3 673 </td> <td align="right"> 47 </td> </tr> |
<tr> <td align="left" bgcolor="#dbcf95"> <b>CELKEM</b> </td> <td align="right" bgcolor="#dbcf95"> <b>72 280</b> </td> <td align="right" bgcolor="#dbcf95"> <b>943</b> </td> </tr> | <tr> <th align="left"> CELKEM </th> <th align="right"> 72 280 </th> <th align="right"> 943 </th> </tr> |
<tr> <td align="left">čeština<sup>*)</sup></td> <td align="right"> 41 340</td> <td align="right"> Syndicate + 652</td> </tr> | <tr> <td align="left">čeština<sup>*)</sup></td> <td align="right"> 41 340</td> <td align="right"> Syndicate + 652</td> </tr> |
</tbody> | </tbody> |
| |
<!-- | <!-- |
<table border="1" cellpadding="4" cellspacing="2"> | <table class="std"> |
<tbody> | <tbody> |
<tr> <td align="center" bgcolor="#dbcf95" valign="top"> <b>jazyk</b> </td> <td align="center" bgcolor="#dbcf95" valign="top"> <b>počet slov (v tisících)</b> </td> <td align="center" bgcolor="#dbcf95" valign="top"> <b>počet textů</b> </td> </tr> | <tr> <td> <b>jazyk</b> </td> <td> <b>počet slov (v tisících)</b> </td> <td> <b>počet textů</b> </td> </tr> |
<tr> <td align="left">čeština</td> <td align="center"> 41 340</td> <td align="center"> Syndicate + 652</td> </tr> | <tr> <td align="left">čeština</td> <td align="center"> 41 340</td> <td align="center"> Syndicate + 652</td> </tr> |
</tbody> | </tbody> |
| |
| |
| </HTML> |
| ====Morfosyntaktická anotace==== |
| <HTML> |
| |
<br><h2 class="section">Morfosyntaktická anotace</h2> | |
| |
<p>Texty v těchto jazycích jsou opatřeny morfologickou anotací.</p> | <p>Texty v těchto jazycích jsou opatřeny morfologickou anotací.</p> |
| |
<table border="1" cellpadding="4" cellspacing="2"> | <table class="std"> |
<tbody> | <tbody> |
<tr> | <tr> |
<td align="left" bgcolor="#dbcf95" nowrap="nowrap"> <b>jazyk</b></td> | <th align="left"> <b>jazyk</b></td> |
<td align="center" bgcolor="#dbcf95" nowrap="nowrap"><b>značky</b></td> | <th align="center"><b>značky</b></td> |
<td align="center" bgcolor="#dbcf95" nowrap="nowrap"><b>lemmata</b></td> | <th align="center"><b>lemmata</b></td> |
<td align="center" bgcolor="#dbcf95" nowrap="nowrap"><b>stručný popis</b></td> | <th align="center"><b>stručný popis</b></td> |
<td align="center" bgcolor="#dbcf95" nowrap="nowrap"><b>podrobný popis</b></td> | <th align="center"><b>podrobný popis</b></td> |
<td align="center" bgcolor="#dbcf95" nowrap="nowrap"><b>nástroj</b></td> | <th align="center"><b>nástroj</b></td> |
</tr> | </tr> |
<tr> | <tr> |
| |
| |
| </HTML> |
| ====Upozornění==== |
| <HTML> |
| |
| |
<h2>Upozornění</h2> | |
<p> | <p> |
Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese | Vyhledávací rozhraní Park se stále vyvíjí, je proto možné, že při hledání v korpusu narazíte na problémy nebo budete postrádat některé funkce, které znáte z vyhledávače v českém (jednojazykovém) korpusu. Popis problémů, připomínky a podněty k dalšímu vývoji rozhraní uvítáme na adrese |
| |
| |
| </HTML> |
| ====Poděkování==== |
| <HTML> |
| |
<h2>Poděkování</h2> | |
<p>Děkujeme za možnost využívat následující software a data:</p> | <p>Děkujeme za možnost využívat následující software a data:</p> |
<h3>Předzpracování</h3> | </HTML> |
| ===Předzpracování=== |
| <HTML> |
<ul> | <ul> |
<li>větný segmentátor pro češtinu (autor Pavel Květoň)</li> | <li>větný segmentátor pro češtinu (autor Pavel Květoň)</li> |
<li>zarovnávač <a href="http://mokk.bme.hu/resources/hunalign" target="_blank">Hunalign</a></li> | <li>zarovnávač <a href="http://mokk.bme.hu/resources/hunalign" target="_blank">Hunalign</a></li> |
</ul> | </ul> |
<h3>Značkovače / lematizátory:</h3> | </HTML> |
| ===Značkovače / lematizátory:=== |
| <HTML> |
<ul> | <ul> |
<li><a href="http://ufal.mff.cuni.cz/morce/" target="_blank">Morče</a> pro češtinu</li> | <li><a href="http://ufal.mff.cuni.cz/morce/" target="_blank">Morče</a> pro češtinu</li> |
<li><a href="http://maximos.aksis.uib.no/Aksis-wiki/Oslo-Bergen_Tagger" target="_blank">analyzátor</a> a <a href="http://omilia.uio.no/obt/" target="_blank">tagger</a> pro norštinu</li> | <li><a href="http://maximos.aksis.uib.no/Aksis-wiki/Oslo-Bergen_Tagger" target="_blank">analyzátor</a> a <a href="http://omilia.uio.no/obt/" target="_blank">tagger</a> pro norštinu</li> |
</ul> | </ul> |
<h3>Korpusový manažer:</h3> | </HTML> |
| ===Korpusový manažer:=== |
| <HTML> |
<ul> | <ul> |
<li><a href="http://www.textforge.cz/products" target="_blank">Manatee</a></li> | <li><a href="http://www.textforge.cz/products" target="_blank">Manatee</a></li> |
</ul> | </ul> |
<h3>Data:</h3> | </HTML> |
| ===Data:=== |
| <HTML> |
<ul> | <ul> |
<li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a></li> | <li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> <a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="http://www.project-syndicate.org/default/images/ps_logo-small.png"></a></li> |
<li>slovensko-české konkordance ze <a href="http://korpus.juls.savba.sk/" target="_blank">Slovenského národního korpusu</a> </li> | <li>slovensko-české konkordance ze <a href="http://korpus.juls.savba.sk/" target="_blank">Slovenského národního korpusu</a> </li> |
<li>povídky ve více jazycích z projektu <a href="http://www.goethe.de/ins/cz/prj/m89/csindex.htm" target="_blank">Můj rok 1989</a> z <a href="http://www.goethe.de/ins/cz/pra/" target="_blank">Goethe Institutu</a> | <li>povídky ve více jazycích z projektu <i>Můj rok 1989</i> z <a href="http://www.goethe.de/ins/cz/pra/" target="_blank">Goethe Institutu</a> |
</li><li>více textů v česko-litevské části korpusu od Patricka Cornesse</li> | </li><li>více textů v česko-litevské části korpusu od Patricka Cornesse</li> |
<li>román George Orwella <i>1984</i> ve více jazycích z korpusu <a href="http://nl.ijs.si/ME/" target="_blank">Multext-East</a></li> | <li>román George Orwella <i>1984</i> ve více jazycích z korpusu <a href="http://nl.ijs.si/ME/" target="_blank">Multext-East</a></li> |
<li>norské texty z nakladatelství <a href="http://www.aschehoug.no/" target="_blank">Aschehoug & co.</a>, <a href="http://www.cappelendamm.no/" target="_blank">Cappelen Forlag</a> a <a href="http://www.oktober.no/" target="_blank">Forlaget Oktober</a></li> | <li>norské texty z nakladatelství <a href="http://www.aschehoug.no/" target="_blank">Aschehoug & co.</a>, <a href="http://www.cappelendamm.no/" target="_blank">Cappelen Forlag</a> a <a href="http://www.oktober.no/" target="_blank">Forlaget Oktober</a></li> |
</ul> | </ul> |
| |
<a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="img/ProjectSyndycateLogo.jpg"></a> | |
| |
<p>Poslední aktualizace: <i>24. února 2011</i></p> | <p>Poslední aktualizace: <i>24. února 2011</i></p> |
| |
</HTML> | </HTML> |
| |
| ==== Související odkazy ==== |
| |
| <WRAP round box 60%> |
| [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:historie|Historie verzí]] |
| </WRAP> |
| |