Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze7 [2015/02/05 18:28] – [Strukturní atributy] michalavacikova | cnk:intercorp:verze7 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek |
---|
| ~~NOTOC~~ |
| |
<HTML> | <HTML> |
<style> | <style> |
=====Korpus InterCorp verze 7===== | =====Korpus InterCorp verze 7===== |
| |
====Popis korpusu==== | |
| |
| <WRAP right> |
^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ | ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 95 814 527 | 116 374 744 | 192 859 914 | 1 555 749 463 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 95 814 527 | 116 374 744 | 208 845 922 | 1 546 493 833 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 77 121 760 | 88 303 155 | 160 009 304 | 1 223 656 608 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 77 121 760 | 88 303 155 | 173 224 560 | 1 216 880 655 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 184 | 5 | 2 131 | 89 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 184 | 5 | 2 294 | 87 | |
^ ::: ^ Počet div | 1 184 | 107 388 | 2 131 | 1 818 380 | | ^ ::: ^ Počet div | 1 184 | 107 388 | 2 294 | 1 817 043 | |
^ ::: ^ Počet vět | 6 595 174 | 13 497 188 | 11 869 813 | 144 365 895 | | ^ ::: ^ Počet vět | 6 595 174 | 13 497 188 | 12 796 035 | 142 788 867 | |
^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ | ^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ |
^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ | ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ |
^ ::: ^ rok zveřejnění | 2008 ^^^^ | ^ ::: ^ rok zveřejnění | 2014 ^^^^ |
^ ::: ^ cizích jazyků | 38 ^^^^ | ^ ::: ^ cizích jazyků | 38 ^^^^ |
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 20 ^^^^ | ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 20 ^^^^ |
^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků | 17 ^^^^ | ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků | 17 ^^^^ |
| </WRAP> |
| |
====Přístup k textům==== | ====Přístup k textům==== |
<HTML> | |
| |
<p>InterCorp je přístupný přes běžný webový prohlížeč třemi způsoby: | InterCorp verze 7 je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. |
</p> | |
| |
<ul> | Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu. |
<li>Z jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://kontext.korpus.cz/" target="_blank">KonText</a>. Toto rozhraní nabízí podobné možnosti jako jeho starší podoba NoSketch Engine (viz níže), návod k použití najdete <a href="https://wiki.korpus.cz/doku.php/manual:uvod">zde</a>. </li> | |
| |
<li>Ze starší verze jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://www.korpus.cz/corpora/" target="_blank">NoSketch Engine</a>. Stručný návod najdete <a href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual_noske&lang=cs">zde</a>.</li> | Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze. Starší verze InterCorpu jsou od roku 2014 zpětně dostupné. |
| |
<li>Z paralelní rozhraní <a href="http://www.korpus.cz/Park" target="_blank">Park</a>. Stručný návod k použití Parku najdete <a href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual&lang=cs">zde</a>.</li> | |
| |
</ul> | |
| |
<p>Všechna tři rozhraní využívají korpusový manažer <a href="http://www.textforge.cz/products">Manatee</a> a zpřístupňují stejné texty. | |
Protože však provozování všech těchto rozhraní vyžaduje nemalou režii, směřuje projekt ČNK už delší dobu k zavedení jediného, univerzálního rozhraní, a tím je KonText. <b>Provoz Parku a NoSketch Engine v ČNK bude ukončen s největší pravděpodobností už na konci března 2015.</b> Chtěli bychom tedy touto cestou vyzvat všechny uživatele InterCorpu k přechodu na nové rozhraní KonText. Jsme přesvědčeni, že tento krok se rozhodně vyplatí, a to nejenom vzhledem k novým, již implementovaným funkcím, ale také vzhledem k záměru toto rozhraní zdokonalovat, mimo jiné také na základě zpětné vazby od uživatelů ČNK. Protože si uvědomujeme, že pro řadu uživatelů může jít o nelehký krok, již delší dobu tuto změnu avizujeme a současně nabízíme možnost konzultací, zaškolení, seminářů apod. v podobě přizpůsobené potřebám konkrétních uživatelů – stačí se komukoli z ČNK ozvat a domluvit podrobnosti.</p> | |
| |
<p>Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.</p> | |
| |
<p>Přibližně jednou za rok vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál budou všechny původní verze zůstávat stále dostupné.</p> | |
| |
</HTML> | |
====Odkazy==== | ====Odkazy==== |
<HTML> | <HTML> |
<li>publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a></li> | <li>publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a></li> |
| |
<li>právní texty Evropské Unie z korpusu <a href="http://langtech.jrc.it/JRC-Acquis.html" target="_blank">Acquis Communautaire</a></li> | <li>právní texty Evropské Unie z korpusu <a href="https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis" target="_blank">Acquis Communautaire</a></li> |
| |
<li>zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a></li> | <li>zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a></li> |
| |
| |
<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts2_v6.png" alt="Graf složení korpusů jednotlivých jazyků – Jádro" title="Složení korpusů jednotlivých jazyků - Jádro"/> | <img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts2.png" alt="Graf složení korpusů jednotlivých jazyků – Jádro" title="Složení korpusů jednotlivých jazyků - Jádro"/> |
<br/> | <br/> |
<br/> | <br/> |
<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts3_v6.png" alt="Graf složení korpusů jednotlivých jazyků – Kolekce" title="Složení korpusů jednotlivých jazyků - Kolekce"/> | <img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts3.png" alt="Graf složení korpusů jednotlivých jazyků – Kolekce" title="Složení korpusů jednotlivých jazyků - Kolekce"/> |
| |
<br/> | <br/> |
<td align="center" nowrap="nowrap">✔</td> | <td align="center" nowrap="nowrap">✔</td> |
<td align="center" nowrap="nowrap">✔</td> | <td align="center" nowrap="nowrap">✔</td> |
<td align="center" nowrap="nowrap"><a href="http://ucnk.ff.cuni.cz/bonito/znacky.php">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html" target="_blank">anglicky</a></td> | <td align="center" nowrap="nowrap"><a href="http://wiki.korpus.cz/doku.php/seznamy:tagy">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html" target="_blank">anglicky</a></td> |
<td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td> | <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td> |
<td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/index.php" target="_blank">Morče</a></td> | <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/index.php" target="_blank">Morče</a></td> |
| |
| |
====Dotazy, připomínky a podněty==== | |
<HTML> | |
| |
<p> | |
... k obsahu korpusu a podobě vyhledávacích rozhraní můžete vznést v <a href="https://podpora.korpus.cz/projects/poradna">Poradně</a> nebo na adrese | |
</p> | |
<p><img src="http://ucnk.ff.cuni.cz/intercorp/img/adresy/mava_a.gif">.</p> | |
| |
| |
</HTML> | |
====Poděkování==== | ====Poděkování==== |
<HTML> | <HTML> |
<li><a href="http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986" target="_blank">Stagger a IceStagger</a> pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)</li> | <li><a href="http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986" target="_blank">Stagger a IceStagger</a> pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)</li> |
</ul> | </ul> |
| |
</HTML> | |
===Korpusový manažer a rozhraní:=== | |
<HTML> | |
| |
<ul> | |
<li><a href="http://www.textforge.cz/products" target="_blank">Manatee</a></li> | |
<li><a href="https://kontext.korpus.cz" target="_blank">KonText</a></li> | |
<li><a href="http://nlp.fi.muni.cz/trac/noske" target="_blank">NoSketch Engine</a></li> | |
<li><a href="http://www.korpus.cz/intercorp/?lang=cs" target="_blank">Park</a></li> | |
</ul> | |
| |
| |
<p>Poslední aktualizace: <i>19. prosince 2014</i></p> | |
| |
</HTML> | </HTML> |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 60%> | <WRAP round box 50%> |
[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] | [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] |
</WRAP> | </WRAP> |
| |