Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze7 [2015/02/04 10:35] – vaclavcvrcek | cnk:intercorp:verze7 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek |
---|
| ~~NOTOC~~ |
| |
<HTML> | <HTML> |
<style> | <style> |
=====Korpus InterCorp verze 7===== | =====Korpus InterCorp verze 7===== |
| |
====Popis korpusu==== | |
| |
| <WRAP right> |
^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ | ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 95 814 527 | 116 374 744 | 192 859 914 | 1 555 749 463 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 95 814 527 | 116 374 744 | 208 845 922 | 1 546 493 833 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 77 121 760 | 88 303 155 | 160 009 304 | 1 223 656 608 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 77 121 760 | 88 303 155 | 173 224 560 | 1 216 880 655 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 184 | 5 | 2 131 | 89 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 184 | 5 | 2 294 | 87 | |
^ ::: ^ Počet div | 1 184 | 107 388 | 2 131 | 1 818 380 | | ^ ::: ^ Počet div | 1 184 | 107 388 | 2 294 | 1 817 043 | |
^ ::: ^ Počet vět | 6 595 174 | 13 497 188 | 11 869 813 | 144 365 895 | | ^ ::: ^ Počet vět | 6 595 174 | 13 497 188 | 12 796 035 | 142 788 867 | |
^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ | ^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ |
^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ | ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ |
^ ::: ^ rok zveřejnění | 2008 ^^^^ | ^ ::: ^ rok zveřejnění | 2014 ^^^^ |
^ ::: ^ cizích jazyků | 38 ^^^^ | ^ ::: ^ cizích jazyků | 38 ^^^^ |
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 20 ^^^^ | ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 20 ^^^^ |
^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků | 17 ^^^^ | ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků | 17 ^^^^ |
| </WRAP> |
| |
====Přístup k textům==== | ====Přístup k textům==== |
<HTML> | |
| |
<p>InterCorp je přístupný přes běžný webový prohlížeč třemi způsoby: | InterCorp verze 7 je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. |
</p> | |
| |
<ul> | Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu. |
<li>Z jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://kontext.korpus.cz/" target="_blank">KonText</a>. Toto rozhraní nabízí podobné možnosti jako jeho starší podoba NoSketch Engine (viz níže), návod k použití najdete <a href="https://wiki.korpus.cz/doku.php/manual:uvod">zde</a>. </li> | |
| |
<li>Ze starší verze jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://www.korpus.cz/corpora/" target="_blank">NoSketch Engine</a>. Stručný návod najdete <a href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual_noske&lang=cs">zde</a>.</li> | Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze. Starší verze InterCorpu jsou od roku 2014 zpětně dostupné. |
| |
<li>Z paralelní rozhraní <a href="http://www.korpus.cz/Park" target="_blank">Park</a>. Stručný návod k použití Parku najdete <a href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual&lang=cs">zde</a>.</li> | |
| |
</ul> | |
| |
<p>Všechna tři rozhraní využívají korpusový manažer <a href="http://www.textforge.cz/products">Manatee</a> a zpřístupňují stejné texty. | |
Protože však provozování všech těchto rozhraní vyžaduje nemalou režii, směřuje projekt ČNK už delší dobu k zavedení jediného, univerzálního rozhraní, a tím je KonText. <b>Provoz Parku a NoSketch Engine v ČNK bude ukončen s největší pravděpodobností už na konci března 2015.</b> Chtěli bychom tedy touto cestou vyzvat všechny uživatele InterCorpu k přechodu na nové rozhraní KonText. Jsme přesvědčeni, že tento krok se rozhodně vyplatí, a to nejenom vzhledem k novým, již implementovaným funkcím, ale také vzhledem k záměru toto rozhraní zdokonalovat, mimo jiné také na základě zpětné vazby od uživatelů ČNK. Protože si uvědomujeme, že pro řadu uživatelů může jít o nelehký krok, již delší dobu tuto změnu avizujeme a současně nabízíme možnost konzultací, zaškolení, seminářů apod. v podobě přizpůsobené potřebám konkrétních uživatelů – stačí se komukoli z ČNK ozvat a domluvit podrobnosti.</p> | |
| |
<p>Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.</p> | |
| |
<p>Přibližně jednou za rok vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Od verze 6 dál budou všechny původní verze zůstávat stále dostupné.</p> | |
| |
</HTML> | |
====Odkazy==== | ====Odkazy==== |
<HTML> | <HTML> |
<li>publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a></li> | <li>publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a></li> |
| |
<li>právní texty Evropské Unie z korpusu <a href="http://langtech.jrc.it/JRC-Acquis.html" target="_blank">Acquis Communautaire</a></li> | <li>právní texty Evropské Unie z korpusu <a href="https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis" target="_blank">Acquis Communautaire</a></li> |
| |
<li>zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a></li> | <li>zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a></li> |
| |
| |
<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts2_v6.png" alt="Graf složení korpusů jednotlivých jazyků – Jádro" title="Složení korpusů jednotlivých jazyků - Jádro"/> | <img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts2.png" alt="Graf složení korpusů jednotlivých jazyků – Jádro" title="Složení korpusů jednotlivých jazyků - Jádro"/> |
<br/> | <br/> |
<br/> | <br/> |
<img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts3_v6.png" alt="Graf složení korpusů jednotlivých jazyků – Kolekce" title="Složení korpusů jednotlivých jazyků - Kolekce"/> | <img src="http://ucnk.ff.cuni.cz/intercorp/img/intercorp_wordcounts3.png" alt="Graf složení korpusů jednotlivých jazyků – Kolekce" title="Složení korpusů jednotlivých jazyků - Kolekce"/> |
| |
<br/> | <br/> |
<td align="center" nowrap="nowrap">✔</td> | <td align="center" nowrap="nowrap">✔</td> |
<td align="center" nowrap="nowrap">✔</td> | <td align="center" nowrap="nowrap">✔</td> |
<td align="center" nowrap="nowrap"><a href="http://ucnk.ff.cuni.cz/bonito/znacky.php">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html" target="_blank">anglicky</a></td> | <td align="center" nowrap="nowrap"><a href="http://wiki.korpus.cz/doku.php/seznamy:tagy">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html" target="_blank">anglicky</a></td> |
<td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td> | <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td> |
<td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/index.php" target="_blank">Morče</a></td> | <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/index.php" target="_blank">Morče</a></td> |
| |
</HTML> | </HTML> |
====Dotazy, připomínky a podněty==== | ====Strukturní atributy==== |
<HTML> | |
| ^Struktura^Atribut^Popis^Možné hodnoty^ |
| |doc|doc.id|unikátní identifikátor dokumentu|text| |
| | |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| |
| | |doc.version|verze textu|číslo| |
| | |doc.wordcount|velikost dokumentu ve slovech|číslo| |
| |div|div.id|identifikace textu|příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP / _SUBTITLES / _SYNDICATE| |
| | |div.group|rozdělení na:|//Core// / Acquis / Europarl / PressEurop / Subtitles / Syndicate| |
| | |div.wordcount|počet slov textu|číslo| |
| | |div.author|autor textu|příjmení, jméno| |
| | |div.title|úplný název textu|text| |
| | |div.publisher|vydavatel|text| |
| | |div.pubplace|místo vydání|text| |
| | |div.pubyear|rok vydání|letopočet| |
| | |div.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles| |
| | |div.original|je text originálem?|Yes / No| |
| | |div.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| |
| | |div.translator|překladatel textu|příjmení, jméno| |
| | |div.transsex|pohlaví překladatele|F / M| |
| | |div.authsex|pohlaví autora:|F / M| |
| |p|p.id|unikátní identifikátor odstavce|text| |
| |s|s.id|unikátní identifikátor věty|text| |
| |
<p> | |
... k obsahu korpusu a podobě vyhledávacích rozhraní můžete vznést v <a href="https://podpora.korpus.cz/projects/poradna">Poradně</a> nebo na adrese | |
</p> | |
<p><img src="http://ucnk.ff.cuni.cz/intercorp/img/adresy/mava_a.gif">.</p> | |
| |
| |
</HTML> | |
====Poděkování==== | ====Poděkování==== |
<HTML> | <HTML> |
| |
</HTML> | </HTML> |
===Korpusový manažer a rozhraní:=== | |
<HTML> | |
| |
<ul> | ==== Související odkazy ==== |
<li><a href="http://www.textforge.cz/products" target="_blank">Manatee</a></li> | |
<li><a href="https://kontext.korpus.cz" target="_blank">KonText</a></li> | |
<li><a href="http://nlp.fi.muni.cz/trac/noske" target="_blank">NoSketch Engine</a></li> | |
<li><a href="http://www.korpus.cz/intercorp/?lang=cs" target="_blank">Park</a></li> | |
</ul> | |
| |
| |
<p>Poslední aktualizace: <i>19. prosince 2014</i></p> | |
</div> | |
</HTML> | |
| |
| <WRAP round box 50%> |
| [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] |
| </WRAP> |