AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze7 [2015/02/03 11:23] – [Morfosyntaktická anotace] michalavacikovacnk:intercorp:verze7 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek
Řádek 1: Řádek 1:
 +~~NOTOC~~
 +
 <HTML> <HTML>
 <style> <style>
Řádek 56: Řádek 58:
 =====Korpus InterCorp verze 7===== =====Korpus InterCorp verze 7=====
  
-====Popis korpusu==== 
  
 +<WRAP right>
 ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  95 814 527 |  116 374 744 |  192 859 914 |  1 555 749 463 +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  95 814 527 |  116 374 744 |  208 845 922 |  1 546 493 833 
-^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  77 121 760 |  88 303 155 |  160 009 304 |  1 223 656 608 +^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  77 121 760 |  88 303 155 |  173 224 560 |  1 216 880 655 
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 184 |  5 |  2 131 |  89 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 184 |  5 |  2 294 |  87 
-^ ::: ^ Počet div |  1 184 |  107 388 |  2 131 |  1 818 380 +^ ::: ^ Počet div |  1 184 |  107 388 |  2 294 |  1 817 043 
-^ ::: ^ Počet vět |  6 595 174 |  13 497 188 |  11 869 813 |  144 365 895 |+^ ::: ^ Počet vět |  6 595 174 |  13 497 188 |  12 796 035 |  142 788 867 |
 ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^ ^ Další informace ^ [[pojmy:referencni|referenční]] |  ANO   ^^^^
 ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^  ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] |  NE ([[seznamy:txtype|různé textové typy]])  ^^^^ 
-^ ::: ^ rok zveřejnění |  2008  ^^^^+^ ::: ^ rok zveřejnění |  2014  ^^^^
 ^ ::: ^ cizích jazyků |  38  ^^^^ ^ ::: ^ cizích jazyků |  38  ^^^^
 ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  20  ^^^^ ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  20  ^^^^
 ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků |  17  ^^^^ ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků |  17  ^^^^
 +</WRAP>
  
 ====Přístup k textům==== ====Přístup k textům====
-<HTML> 
  
-<p>InterCorp je přístupný přes běžný webový prohlížeč třemi způsoby +InterCorp verze 7 je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. 
-</p>+
  
-<ul> +Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic větZájemci se mohou obrátit na níže uvedenou e-mailovou adresu.
-<li>Z jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://kontext.korpus.cz/" target="_blank">KonText</a>. Toto rozhraní nabízí podobné možnosti jako jeho starší podoba NoSketch Engine (viz níže), návod k použití najdete <a href="https://wiki.korpus.cz/doku.php/manual:uvod">zde</a></li>+
  
-<li>Ze starší verze jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://www.korpus.cz/corpora/" target="_blank">NoSketch Engine</a>. Stručný návod najdete <href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual_noske&lang=cs">zde</a>.</li>+Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů případně i počet jazyků rozsah anotace se postupně zvětšuje, a to vždy s vydáním  nové verzeStarší verze InterCorpu jsou od roku 2014 zpětně dostupné.
  
-<li>Z paralelní rozhraní <a href="http://www.korpus.cz/Park" target="_blank">Park</a>. Stručný návod k použití Parku najdete <a href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual&lang=cs">zde</a>.</li> 
- 
-</ul> 
- 
-<p>Všechna tři rozhraní využívají korpusový manažer <a href="http://www.textforge.cz/products">Manatee</a> a zpřístupňují stejné texty.  
-Protože však provozování všech těchto rozhraní vyžaduje nemalou režii, směřuje projekt ČNK už delší dobu k zavedení jediného, univerzálního rozhraní, a tím je KonText. <b>Provoz Parku a NoSketch Engine v ČNK bude ukončen s největší pravděpodobností už na konci března 2015.</b> Chtěli bychom tedy touto cestou vyzvat všechny uživatele InterCorpu k přechodu na nové rozhraní KonText. Jsme přesvědčeni, že tento krok se rozhodně vyplatí, a to nejenom vzhledem k novým, již implementovaným funkcím, ale také vzhledem k záměru toto rozhraní zdokonalovat, mimo jiné také na základě zpětné vazby od uživatelů ČNK. Protože si uvědomujeme, že pro řadu uživatelů může jít o nelehký krok, již delší dobu tuto změnu avizujeme a současně nabízíme možnost konzultací, zaškolení, seminářů apod. v podobě přizpůsobené potřebám konkrétních uživatelů – stačí se komukoli z ČNK ozvat a domluvit podrobnosti.</p> 
- 
-<p>Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.</p> 
- 
-<p>Přibližně jednou za rok vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál budou všechny původní verze zůstávat stále dostupné.</p> 
- 
-</HTML> 
 ====Odkazy==== ====Odkazy====
 <HTML> <HTML>
Řádek 113: Řádek 101:
   <li>publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a></li>   <li>publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a></li>
  
-<li>právní texty Evropské Unie z korpusu <a href="http://langtech.jrc.it/JRC-Acquis.html" target="_blank">Acquis Communautaire</a></li>+<li>právní texty Evropské Unie z korpusu <a href="https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis" target="_blank">Acquis Communautaire</a></li>
  
 <li>zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a></li> <li>zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a></li>
Řádek 133: Řádek 121:
  
  
-<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts2_v6.png" alt="Graf složení korpusů jednotlivých jazyků – Jádro" title="Složení korpusů jednotlivých jazyků - Jádro"/>+<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts2.png" alt="Graf složení korpusů jednotlivých jazyků – Jádro" title="Složení korpusů jednotlivých jazyků - Jádro"/>
 <br/> <br/>
 <br/> <br/>
-<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts3_v6.png" alt="Graf složení korpusů jednotlivých jazyků – Kolekce" title="Složení korpusů jednotlivých jazyků - Kolekce"/>+<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts3.png" alt="Graf složení korpusů jednotlivých jazyků – Kolekce" title="Složení korpusů jednotlivých jazyků - Kolekce"/>
  
 <br/> <br/>
Řádek 236: Řádek 224:
 <td align="center" nowrap="nowrap">&#10004;</td> <td align="center" nowrap="nowrap">&#10004;</td>
 <td align="center" nowrap="nowrap">&#10004;</td> <td align="center" nowrap="nowrap">&#10004;</td>
-<td align="center" nowrap="nowrap"><a href="http://ucnk.ff.cuni.cz/bonito/znacky.php">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html"  target="_blank">anglicky</a></td>+<td align="center" nowrap="nowrap"><a href="http://wiki.korpus.cz/doku.php/seznamy:tagy">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html"  target="_blank">anglicky</a></td>
 <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td> <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td>
 <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/index.php"  target="_blank">Morče</a></td> <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/index.php"  target="_blank">Morče</a></td>
Řádek 392: Řádek 380:
  
 </HTML> </HTML>
-====Dotazy, připomínky a podněty==== +====Strukturní atributy==== 
-<HTML>+ 
 +^Struktura^Atribut^Popis^Možné hodnoty^ 
 +|doc|doc.id|unikátní identifikátor dokumentu|text| 
 +| |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| 
 +| |doc.version|verze textu|číslo| 
 +| |doc.wordcount|velikost dokumentu ve slovech|číslo| 
 +|div|div.id|identifikace textu|příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP / _SUBTITLES / _SYNDICATE| 
 +| |div.group|rozdělení na:|//Core// / Acquis / Europarl / PressEurop / Subtitles / Syndicate| 
 +| |div.wordcount|počet slov textu|číslo| 
 +| |div.author|autor textu|příjmení, jméno| 
 +| |div.title|úplný název textu|text| 
 +| |div.publisher|vydavatel|text| 
 +| |div.pubplace|místo vydání|text| 
 +| |div.pubyear|rok vydání|letopočet| 
 +| |div.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles| 
 +| |div.original|je text originálem?|Yes / No| 
 +| |div.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| 
 +| |div.translator|překladatel textu|příjmení, jméno| 
 +| |div.transsex|pohlaví překladatele|F / M| 
 +| |div.authsex|pohlaví autora:|F / M| 
 +|p|p.id|unikátní identifikátor odstavce|text| 
 +|s|s.id|unikátní identifikátor věty|text|
  
-  <p> 
-... k obsahu korpusu a podobě vyhledávacích rozhraní můžete vznést v <a href="https://podpora.korpus.cz/projects/poradna">Poradně</a> nebo na adrese  
-</p> 
-<p><img src="http://ucnk.ff.cuni.cz/intercorp/img/adresy/mava_a.gif">.</p> 
  
  
-</HTML> 
 ====Poděkování==== ====Poděkování====
 <HTML> <HTML>
Řádek 453: Řádek 457:
  
 </HTML> </HTML>
-===Korpusový manažer a rozhraní:=== 
-<HTML> 
  
- <ul> +==== Související odkazy ====
-   <li><a href="http://www.textforge.cz/products" target="_blank">Manatee</a></li> +
-   <li><a href="https://kontext.korpus.cz" target="_blank">KonText</a></li> +
- <li><a href="http://nlp.fi.muni.cz/trac/noske" target="_blank">NoSketch Engine</a></li> +
- <li><a href="http://www.korpus.cz/intercorp/?lang=cs" target="_blank">Park</a></li> +
- </ul>+
  
- +<WRAP round box 50%> 
-<p>Poslední aktualizace<i>19. prosince 2014</i></p> +[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] 
-</div> +</WRAP>
- +
-</HTML>+