AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze7 [2015/02/05 18:28] – [Strukturní atributy] michalavacikovacnk:intercorp:verze7 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC Václav Cvrček (admin)
Řádek 1: Řádek 1:
 +~~NOTOC~~
 +
 <HTML> <HTML>
 <style> <style>
Řádek 56: Řádek 58:
 =====Korpus InterCorp verze 7===== =====Korpus InterCorp verze 7=====
  
-====Popis korpusu==== 
  
 +<WRAP right>
 ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  95 814 527 |  116 374 744 |  192 859 914 |  1 555 749 463 +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  95 814 527 |  116 374 744 |  208 845 922 |  1 546 493 833 
-^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  77 121 760 |  88 303 155 |  160 009 304 |  1 223 656 608 +^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  77 121 760 |  88 303 155 |  173 224 560 |  1 216 880 655 
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 184 |  5 |  2 131 |  89 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 184 |  5 |  2 294 |  87 
-^ ::: ^ Počet div |  1 184 |  107 388 |  2 131 |  1 818 380 +^ ::: ^ Počet div |  1 184 |  107 388 |  2 294 |  1 817 043 
-^ ::: ^ Počet vět |  6 595 174 |  13 497 188 |  11 869 813 |  144 365 895 |+^ ::: ^ Počet vět |  6 595 174 |  13 497 188 |  12 796 035 |  142 788 867 |
 ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^ ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^
 ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^  ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^ 
-^ ::: ^ rok zveřejnění |  2008  ^^^^+^ ::: ^ rok zveřejnění |  2014  ^^^^
 ^ ::: ^ cizích jazyků |  38  ^^^^ ^ ::: ^ cizích jazyků |  38  ^^^^
 ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  20  ^^^^ ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  20  ^^^^
 ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků |  17  ^^^^ ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků |  17  ^^^^
 +</WRAP>
  
 ====Přístup k textům==== ====Přístup k textům====
-<HTML> 
  
-<p>InterCorp je přístupný přes běžný webový prohlížeč třemi způsoby +InterCorp verze 7 je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. 
-</p>+
  
-<ul> +Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic větZájemci se mohou obrátit na níže uvedenou e-mailovou adresu.
-<li>Z jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://kontext.korpus.cz/" target="_blank">KonText</a>. Toto rozhraní nabízí podobné možnosti jako jeho starší podoba NoSketch Engine (viz níže), návod k použití najdete <a href="https://wiki.korpus.cz/doku.php/manual:uvod">zde</a></li>+
  
-<li>Ze starší verze jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://www.korpus.cz/corpora/" target="_blank">NoSketch Engine</a>. Stručný návod najdete <href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual_noske&lang=cs">zde</a>.</li>+Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů případně i počet jazyků rozsah anotace se postupně zvětšuje, a to vždy s vydáním  nové verzeStarší verze InterCorpu jsou od roku 2014 zpětně dostupné.
  
-<li>Z paralelní rozhraní <a href="http://www.korpus.cz/Park" target="_blank">Park</a>. Stručný návod k použití Parku najdete <a href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual&lang=cs">zde</a>.</li> 
- 
-</ul> 
- 
-<p>Všechna tři rozhraní využívají korpusový manažer <a href="http://www.textforge.cz/products">Manatee</a> a zpřístupňují stejné texty.  
-Protože však provozování všech těchto rozhraní vyžaduje nemalou režii, směřuje projekt ČNK už delší dobu k zavedení jediného, univerzálního rozhraní, a tím je KonText. <b>Provoz Parku a NoSketch Engine v ČNK bude ukončen s největší pravděpodobností už na konci března 2015.</b> Chtěli bychom tedy touto cestou vyzvat všechny uživatele InterCorpu k přechodu na nové rozhraní KonText. Jsme přesvědčeni, že tento krok se rozhodně vyplatí, a to nejenom vzhledem k novým, již implementovaným funkcím, ale také vzhledem k záměru toto rozhraní zdokonalovat, mimo jiné také na základě zpětné vazby od uživatelů ČNK. Protože si uvědomujeme, že pro řadu uživatelů může jít o nelehký krok, již delší dobu tuto změnu avizujeme a současně nabízíme možnost konzultací, zaškolení, seminářů apod. v podobě přizpůsobené potřebám konkrétních uživatelů – stačí se komukoli z ČNK ozvat a domluvit podrobnosti.</p> 
- 
-<p>Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.</p> 
- 
-<p>Přibližně jednou za rok vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál budou všechny původní verze zůstávat stále dostupné.</p> 
- 
-</HTML> 
 ====Odkazy==== ====Odkazy====
 <HTML> <HTML>
Řádek 113: Řádek 101:
   <li>publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a></li>   <li>publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a></li>
  
-<li>právní texty Evropské Unie z korpusu <a href="http://langtech.jrc.it/JRC-Acquis.html" target="_blank">Acquis Communautaire</a></li>+<li>právní texty Evropské Unie z korpusu <a href="https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis" target="_blank">Acquis Communautaire</a></li>
  
 <li>zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a></li> <li>zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a></li>
Řádek 133: Řádek 121:
  
  
-<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts2_v6.png" alt="Graf složení korpusů jednotlivých jazyků – Jádro" title="Složení korpusů jednotlivých jazyků - Jádro"/>+<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts2.png" alt="Graf složení korpusů jednotlivých jazyků – Jádro" title="Složení korpusů jednotlivých jazyků - Jádro"/>
 <br/> <br/>
 <br/> <br/>
-<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts3_v6.png" alt="Graf složení korpusů jednotlivých jazyků – Kolekce" title="Složení korpusů jednotlivých jazyků - Kolekce"/>+<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts3.png" alt="Graf složení korpusů jednotlivých jazyků – Kolekce" title="Složení korpusů jednotlivých jazyků - Kolekce"/>
  
 <br/> <br/>
Řádek 236: Řádek 224:
 <td align="center" nowrap="nowrap">&#10004;</td> <td align="center" nowrap="nowrap">&#10004;</td>
 <td align="center" nowrap="nowrap">&#10004;</td> <td align="center" nowrap="nowrap">&#10004;</td>
-<td align="center" nowrap="nowrap"><a href="http://ucnk.ff.cuni.cz/bonito/znacky.php">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html"  target="_blank">anglicky</a></td>+<td align="center" nowrap="nowrap"><a href="http://wiki.korpus.cz/doku.php/seznamy:tagy">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html"  target="_blank">anglicky</a></td>
 <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td> <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td>
 <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/index.php"  target="_blank">Morče</a></td> <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/index.php"  target="_blank">Morče</a></td>
Řádek 417: Řádek 405:
  
  
-====Dotazy, připomínky a podněty==== 
-<HTML> 
  
-  <p> 
-... k obsahu korpusu a podobě vyhledávacích rozhraní můžete vznést v <a href="https://podpora.korpus.cz/projects/poradna">Poradně</a> nebo na adrese  
-</p> 
-<p><img src="http://ucnk.ff.cuni.cz/intercorp/img/adresy/mava_a.gif">.</p> 
- 
- 
-</HTML> 
 ====Poděkování==== ====Poděkování====
 <HTML> <HTML>
Řádek 476: Řádek 455:
  <li><a href="http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986" target="_blank">Stagger a IceStagger</a> pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)</li>  <li><a href="http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986" target="_blank">Stagger a IceStagger</a> pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)</li>
  </ul>  </ul>
- 
-</HTML> 
-===Korpusový manažer a rozhraní:=== 
-<HTML> 
- 
- <ul> 
-   <li><a href="http://www.textforge.cz/products" target="_blank">Manatee</a></li> 
-   <li><a href="https://kontext.korpus.cz" target="_blank">KonText</a></li> 
- <li><a href="http://nlp.fi.muni.cz/trac/noske" target="_blank">NoSketch Engine</a></li> 
- <li><a href="http://www.korpus.cz/intercorp/?lang=cs" target="_blank">Park</a></li> 
- </ul> 
- 
- 
-<p>Poslední aktualizace: <i>19. prosince 2014</i></p> 
  
 </HTML> </HTML>
Řádek 495: Řádek 460:
 ==== Související odkazy ==== ==== Související odkazy ====
  
-<WRAP round box 60%>+<WRAP round box 50%>
 [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]
 </WRAP> </WRAP>
-