AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze6 [2015/02/05 18:01] – [Morfosyntaktická anotace] michalavacikovacnk:intercorp:verze6 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC Václav Cvrček (admin)
Řádek 1: Řádek 1:
 +~~NOTOC~~
 +
 <HTML> <HTML>
 <style> <style>
Řádek 57: Řádek 59:
 =====Korpus InterCorp verze 6===== =====Korpus InterCorp verze 6=====
  
-====Popis korpusu==== +<WRAP right>
 ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  76 861 107 |  46 880 365 |  136 603 406 |  917 860 025+^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  76 861 107 |  46 880 365 |  167 141 155 |  890 129 077
-^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  61 962 499 |  37 584 764 |  113 448 156 |  751 407 806 +^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  61 962 499 |  37 584 764 |  138 762 949 |  728 507 959 
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  996 |  4 |  1 583 |  58 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  996 |  4 |  1 939 |  56 
-^ ::: ^ Počet div |  996 |  96 988 |  1 583 |  1 784 832 +^ ::: ^ Počet div |  996 |  96 988 |  1 939 |  1 728 492 
-^ ::: ^ Počet vět |  5 254 361 |  2 392 808 |  8 409 761 |  45 413 698 |+^ ::: ^ Počet vět |  5 254 361 |  2 392 808 |  10 283 732 |  44 113 753 |
 ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^ ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^
 ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^  ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^ 
-^ ::: ^ rok zveřejnění |  2008  ^^^^+^ ::: ^ rok zveřejnění |  2013  ^^^^
 ^ ::: ^ cizích jazyků |  31  ^^^^ ^ ::: ^ cizích jazyků |  31  ^^^^
 ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  17  ^^^^ ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  17  ^^^^
 ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků |  14  ^^^^ ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků |  14  ^^^^
 +</WRAP>
  
 ====Přístup k textům==== ====Přístup k textům====
-<HTML> 
  
-<p>InterCorp verze 6 je přístupný přes běžný webový prohlížeč třemi způsoby:  +InterCorp verze 6 je přístupný přes běžný webový prohlížeč třemi způsoby z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. 
-</p>+
  
-<ul> +Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic větZájemci se mohou obrátit na níže uvedenou e-mailovou adresu.
-<li>Z jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://kontext.korpus.cz/" target="_blank">KonText</a>. Toto rozhraní nabízí podobné možnosti jako jeho starší podoba NoSketch Engine (viz níže)</li>+
  
-<li>Ze starší verze jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://www.korpus.cz/corpora/" target="_blank">NoSketch Engine</a>. Stručný návod najdete <href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual_noske&lang=cs">zde</a>.</li>+Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů případně i počet jazyků rozsah anotace se postupně zvětšuje, a to vždy s vydáním  nové verzeStarší verze InterCorpu jsou od roku 2014 zpětně dostupné.
  
-<li>Z paralelní rozhraní <a href="http://www.korpus.cz/Park" target="_blank">Park</a>. Stručný návod k použití Parku najdete <a href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual&lang=cs">zde</a>.</li> 
  
-</ul> 
- 
-<p>Všechna tři rozhraní využívají korpusový manažer <a href="http://www.textforge.cz/products">Manatee</a> a zpřístupňují stejné texty. Rozhraní Park umožňuje hledat také v předchozí verzi korpusu.</p>  
- 
-<p>Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.</p> 
- 
-<p>Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním  nové verze.</p> 
- 
-</HTML> 
 ====Odkazy==== ====Odkazy====
 <HTML> <HTML>
Řádek 110: Řádek 98:
  
  
-<p><b>Jádrem</b> korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. <b>kolekce</b>. Aktuálně jsou k dispozici publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a>, právní texty Evropské Unie z korpusu <a href="http://langtech.jrc.it/JRC-Acquis.html" target="_blank">Acquis Communautaire</a> a zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a>. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Některé texty z korpusů Acquis Communautaire a Europarl byly částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Jen automatické zarovnání bez ruční kontroly mají ve verzi 6 dočasně i některé texty z jádra, a to část textů převzatých z korpusu <a href="http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3" target="_blank">ASPAC – Amsterdam Slavic Parallel Aligned Corpus</a>. Zarovnání těchto textů bude opraveno v další verzi. </p> +<p><b>Jádrem</b> korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. <b>kolekce</b>. Aktuálně jsou k dispozici publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a>, právní texty Evropské Unie z korpusu <a href="https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis" target="_blank">Acquis Communautaire</a> a zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a>. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Některé texty z korpusů Acquis Communautaire a Europarl byly částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Jen automatické zarovnání bez ruční kontroly mají ve verzi 6 dočasně i některé texty z jádra, a to část textů převzatých z korpusu <a href="http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3" target="_blank">ASPAC – Amsterdam Slavic Parallel Aligned Corpus</a>. Zarovnání těchto textů bude opraveno v další verzi. </p> 
  
 <p>Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je <p>Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je
Řádek 218: Řádek 206:
 <td align="center" nowrap="nowrap">✔</td> <td align="center" nowrap="nowrap">✔</td>
 <td align="center" nowrap="nowrap">✔</td> <td align="center" nowrap="nowrap">✔</td>
-<td align="center" nowrap="nowrap"><a href="http://korpus.cz/bonito/znacky.php">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html" target="_blank">anglicky</a> *)</td>+<td align="center" nowrap="nowrap"><a href="http://wiki.korpus.cz/doku.php/seznamy:tagy">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html" target="_blank">anglicky</a> *)</td>
 <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td> <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td>
 <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/" target="_blank">Morče</a></td> <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/" target="_blank">Morče</a></td>
Řádek 349: Řádek 337:
  
 </HTML> </HTML>
- 
 ====Strukturní atributy==== ====Strukturní atributy====
  
 ^Struktura^Atribut^Popis^Možné hodnoty^ ^Struktura^Atribut^Popis^Možné hodnoty^
 |doc|doc.id|unikátní identifikátor dokumentu|text| |doc|doc.id|unikátní identifikátor dokumentu|text|
-| |doc.lang|jazyk textu|bg / ca / cs / da / de / el / en / es / et / fi / fr / ga / hr / hu / it / lt / lv / mt / nl / no / pl / pt / ro / ru / sk / sl / sv / un|+| |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / hi / hr / hu / it / lt / lv / mk / mt / nl / no / pl / pt / ro / ru / sk / sl / sr / sv / uk|
 | |doc.version|verze textu|číslo| | |doc.version|verze textu|číslo|
 | |doc.wordcount|velikost dokumentu ve slovech|číslo| | |doc.wordcount|velikost dokumentu ve slovech|číslo|
Řádek 367: Řádek 354:
 | |div.txtype|typ textu|drama / literatura faktu / poezie / právní texty / próza / publicistika - komentáře / publicistika - zprávy / různé / zápis debaty| | |div.txtype|typ textu|drama / literatura faktu / poezie / právní texty / próza / publicistika - komentáře / publicistika - zprávy / různé / zápis debaty|
 | |div.original|je text originálem?|ANO / NE| | |div.original|je text originálem?|ANO / NE|
-| |div.srclang|jazyk originálu|bg / ca / cs / da / de / el / en / es / et / fi / fr / ga / hr / hu / it / lt / lv / mt / nl / no / pl / pt / ro / ru / sk / sl / sv / un|+| |div.srclang|jazyk originálu|bg / bt / ca / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fi / fr / ga / hi / hr / hu / ie / it / lt / lv / mt / ni / nl / no / pl / po / pt / ro / ru / se / sk / sl / sr / sv / uk / un|
 | |div.translator|překladatel textu|příjmení, jméno| | |div.translator|překladatel textu|příjmení, jméno|
 | |div.transsex|pohlaví překladatele|F / M| | |div.transsex|pohlaví překladatele|F / M|
Řádek 374: Řádek 361:
 |s|s.id|unikátní identifikátor věty|text| |s|s.id|unikátní identifikátor věty|text|
  
-====Dotazy, připomínky a podněty==== 
-<HTML> 
  
-  <p> 
-... k obsahu korpusu a podobě vyhledávacích rozhraní uvítáme na adrese  
-</p> 
-<p><img src="http://ucnk.ff.cuni.cz/intercorp/img/adresy/mava_a.gif"></p> 
- 
- 
-</HTML> 
 ====Poděkování==== ====Poděkování====
 <HTML> <HTML>
Řádek 432: Řádek 410:
  </ul>  </ul>
  
-</HTML> 
-===Korpusový manažer a rozhraní:=== 
-<HTML> 
- 
- <ul> 
- <li><a href="http://www.textforge.cz/products" target="_blank">Manatee</a></li> 
- <li><a href="http://nlp.fi.muni.cz/trac/noske" target="_blank">NoSketch Engine</a></li> 
- <li><a href="http://www.korpus.cz/intercorp/?lang=cs" target="_blank">Park</a></li> 
- </ul> 
- 
- 
-<p>Poslední aktualizace: <i>2. února 2014</i></p> 
 </HTML> </HTML>
  
 ==== Související odkazy ==== ==== Související odkazy ====
  
-<WRAP round box 60%>+<WRAP round box 50%>
 [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]
 </WRAP> </WRAP>