Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:intercorp:verze6 [2015/02/02 14:43] – [Morfosyntaktická anotace] michalavacikova | cnk:intercorp:verze6 [2015/04/08 11:39] – [Morfosyntaktická anotace] vaclavcvrcek |
---|
| ~~NOTOC~~ |
| |
<HTML> | <HTML> |
<style> | <style> |
=====Korpus InterCorp verze 6===== | =====Korpus InterCorp verze 6===== |
| |
====Popis korpusu==== | <WRAP right> |
^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ | ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 76 861 107 | 46 880 365 | 136 603 406 | 917 860 025| | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 76 861 107 | 46 880 365 | 136 603 406 | 917 860 025| |
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 17 ^^^^ | ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 17 ^^^^ |
^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků | 14 ^^^^ | ^ ::: ^ [[pojmy:lemma|lemmat.]] jazyků | 14 ^^^^ |
| </WRAP> |
| |
====Přístup k textům==== | ====Přístup k textům==== |
<HTML> | |
| |
<p>InterCorp verze 6 je přístupný přes běžný webový prohlížeč třemi způsoby: | InterCorp verze 6 je přístupný přes běžný webový prohlížeč třemi způsoby z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. |
</p> | |
| |
<ul> | Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu. |
<li>Z jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://kontext.korpus.cz/" target="_blank">KonText</a>. Toto rozhraní nabízí podobné možnosti jako jeho starší podoba NoSketch Engine (viz níže). </li> | |
| |
<li>Ze starší verze jednotného vyhledávacího rozhraní Českého národního korpusu <a href="http://www.korpus.cz/corpora/" target="_blank">NoSketch Engine</a>. Stručný návod najdete <a href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual_noske&lang=cs">zde</a>.</li> | Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze. Starší verze InterCorpu jsou od roku 2014 zpětně dostupné. |
| |
<li>Z paralelní rozhraní <a href="http://www.korpus.cz/Park" target="_blank">Park</a>. Stručný návod k použití Parku najdete <a href="http://ucnk.ff.cuni.cz/intercorp/?req=page:manual&lang=cs">zde</a>.</li> | |
| |
</ul> | |
| |
<p>Všechna tři rozhraní využívají korpusový manažer <a href="http://www.textforge.cz/products">Manatee</a> a zpřístupňují stejné texty. Rozhraní Park umožňuje hledat také v předchozí verzi korpusu.</p> | |
| |
<p>Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.</p> | |
| |
<p>Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze.</p> | |
| |
</HTML> | |
====Odkazy==== | ====Odkazy==== |
<HTML> | <HTML> |
<td align="center" nowrap="nowrap">✔</td> | <td align="center" nowrap="nowrap">✔</td> |
<td align="center" nowrap="nowrap">✔</td> | <td align="center" nowrap="nowrap">✔</td> |
<td align="center" nowrap="nowrap"><a href="http://korpus.cz/bonito/znacky.php">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html" target="_blank">anglicky</a> *)</td> | <td align="center" nowrap="nowrap"><a href="http://wiki.korpus.cz/doku.php/seznamy:tagy">česky</a> <a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html" target="_blank">anglicky</a> *)</td> |
<td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td> | <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf">anglicky</a></td> |
<td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/" target="_blank">Morče</a></td> | <td align="center" nowrap="nowrap"><a href="http://ufal.mff.cuni.cz/morce/" target="_blank">Morče</a></td> |
<td align="center" nowrap="nowrap">✔</td> | <td align="center" nowrap="nowrap">✔</td> |
<td align="center" nowrap="nowrap"><a href="http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/tags.html" target="_blank">česky a anglicky</a></td> | <td align="center" nowrap="nowrap"><a href="http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/tags.html" target="_blank">česky a anglicky</a></td> |
<td align="center" nowrap="nowrap"><a href="http://delivery.acm.org/10.1145/1570000/1567563/p94-daudaravicius.pdf?ip=62.245.92.111&acc=OPEN&key=1B55DF923F77674F55057ED4F3766CA0&CFID=216322351&CFTOKEN=30535677&__acm__=1368273161_6cdfd16427521446a21b56c60ab855ed" target="_blank">anglicky</a></td> | <td align="center" nowrap="nowrap"><a href="http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/LT-POS.pdf" target="_blank">anglicky</a></td> |
<td align="center" nowrap="nowrap">Autor: <a href="http://senas.vdu.lt/staff/informatics/CVPDF/CV_Daudaravicius_en.pdf" target="_blank"> | <td align="center" nowrap="nowrap">Autor: <a href="http://senas.vdu.lt/staff/informatics/CVPDF/CV_Daudaravicius_en.pdf" target="_blank"> |
Vidas Daudaravičius</a></td> | Vidas Daudaravičius</a></td> |
| |
</HTML> | </HTML> |
| ====Strukturní atributy==== |
| |
| ^Struktura^Atribut^Popis^Možné hodnoty^ |
| |doc|doc.id|unikátní identifikátor dokumentu|text| |
| | |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / hi / hr / hu / it / lt / lv / mk / mt / nl / no / pl / pt / ro / ru / sk / sl / sr / sv / uk| |
| | |doc.version|verze textu|číslo| |
| | |doc.wordcount|velikost dokumentu ve slovech|číslo| |
| |div|div.id|identifikace textu|příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP / _SYNDICATE| |
| | |div.group|rozdělení na:|jádro / kolekce| |
| | |div.wordcount|počet slov textu|číslo| |
| | |div.author|autor textu|příjmení, jméno| |
| | |div.title|úplný název textu|text| |
| | |div.publisher|vydavatel|text| |
| | |div.pubplace|místo vydání|text| |
| | |div.pubyear|rok vydání|letopočet| |
| | |div.txtype|typ textu|drama / literatura faktu / poezie / právní texty / próza / publicistika - komentáře / publicistika - zprávy / různé / zápis debaty| |
| | |div.original|je text originálem?|ANO / NE| |
| | |div.srclang|jazyk originálu|bg / bt / ca / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fi / fr / ga / hi / hr / hu / ie / it / lt / lv / mt / ni / nl / no / pl / po / pt / ro / ru / se / sk / sl / sr / sv / uk / un| |
| | |div.translator|překladatel textu|příjmení, jméno| |
| | |div.transsex|pohlaví překladatele|F / M| |
| | |div.authsex|pohlaví autora:|F / M| |
| |p|p.id|unikátní identifikátor odstavce|text| |
| |s|s.id|unikátní identifikátor věty|text| |
| |
====Dotazy, připomínky a podněty==== | ====Dotazy, připomínky a podněty==== |
<HTML> | <HTML> |
<ul> | <ul> |
<li>beletristické texty v řadě slovanských i jiných jazyků z korpusu <a href="http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3" target="_blank">ASPAC – Amsterdam Slavic Parallel Aligned Corpus</a> – zvláštní poděkování patří Adrianu Barentsenovi</li> | <li>beletristické texty v řadě slovanských i jiných jazyků z korpusu <a href="http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3" target="_blank">ASPAC – Amsterdam Slavic Parallel Aligned Corpus</a> – zvláštní poděkování patří Adrianu Barentsenovi</li> |
<li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> <br> <a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="img/ProjectSyndycateLogo.jpg"></a></li> | <li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> <a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="http://www.project-syndicate.org/default/images/ps_logo-small.png"></a></li> |
<li>publicistické texty ve více jazycích ze serveru <a href="http://www.presseurop.eu" target="_blank">Presseurop</a></li> | <li>publicistické texty ve více jazycích ze serveru <a href="http://www.presseurop.eu" target="_blank">Presseurop</a></li> |
<li>právnické texty v jazycích EU z korpusu <a href="http://wt.jrc.it/lt/Acquis/" target="_blank">JRC-ACQUIS</a></li> | <li>právnické texty v jazycích EU z korpusu <a href="http://wt.jrc.it/lt/Acquis/" target="_blank">JRC-ACQUIS</a></li> |
| |
</HTML> | </HTML> |
===Korpusový manažer a rozhraní:=== | |
<HTML> | |
| |
<ul> | ==== Související odkazy ==== |
<li><a href="http://www.textforge.cz/products" target="_blank">Manatee</a></li> | |
<li><a href="http://nlp.fi.muni.cz/trac/noske" target="_blank">NoSketch Engine</a></li> | |
<li><a href="http://www.korpus.cz/intercorp/?lang=cs" target="_blank">Park</a></li> | |
</ul> | |
| |
| <WRAP round box 60%> |
<p>Poslední aktualizace: <i>2. února 2014</i></p> | [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] |
</HTML> | </WRAP> |