Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze8 [2016/05/13 16:03] – [Morfosyntaktická anotace] martinvavrin | cnk:intercorp:verze8 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek |
---|
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 105 239 198 | 117 981 673 | 233 509 950 | 1 560 655 498 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 105 239 198 | 117 981 673 | 233 509 950 | 1 560 655 498 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 84 718 325 | 89 645 545 | 194 055 340 | 1 229 043 791 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 84 718 325 | 89 645 545 | 194 055 340 | 1 229 043 791 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 279 | 5 | 2 513 | 89 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 279 | 5 | 2 513 | 89 | |
^ ::: ^ Počet div | 1 279 | 111 263 | 2 513 | 1 849 184 | | ^ ::: ^ Počet div | 1 279 | 111 263 | 2 513 | 1 849 184 | |
^ ::: ^ Počet vět | 7 250 794 | 13 588 082 | 14 377 637 | 143 478 514 | | ^ ::: ^ Počet vět | 7 250 794 | 13 588 082 | 14 377 637 | 143 478 514 | |
| |
====Přístup k textům==== | ====Přístup k textům==== |
| |
| Po registraci na stránce [[https://www.korpus.cz/toolbar/signup.php|Prohlášení uživatele korpusů ÚČNK]] lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete. |
| |
InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. | InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. |
| |
Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. | Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu. |
| |
Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze. Starší verze InterCorpu jsou od roku 2014 zpětně dostupné. | |
| |
| Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textů, případně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné. |
==== Jak citovat ==== | ==== Jak citovat ==== |
| |
([[http://ucnk.ff.cuni.cz/intercorp/?req=page:references_bibtex&lang=cs|bibtex]], [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). | ([[http://ucnk.ff.cuni.cz/intercorp/?req=page:references_bibtex&lang=cs|bibtex]], [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). |
| |
Seznam další literatury najdete v [[http://biblio.korpus.cz|Repozitáři bibliografických informací založených na ČNK]]. | Seznam další literatury najdete v [[http://biblio.korpus.cz|Repozitáři bibliografických informací založených na ČNK]]. Každý odkaz na práci využívající InterCorp je vítán, viz [[https://www.korpus.cz/biblio_appeal.php|podrobnosti]]. |
</WRAP> | |
| |
| |
| |
| Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: |
| |
| Rosen, A. – Vavřín, M.: //Korpus InterCorp – angličtina, němčina((Vložte konkrétní jazyky.)), verze 7 z 19.12.2014//. Ústav Českého národního korpusu, FF UK, Praha 2014. Dostupné z WWW: http://www.korpus.cz |
| |
| </WRAP> |
==== Obsah korpusu ==== | ==== Obsah korpusu ==== |
| |
| |
* publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop) | * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop) |
* právní texty Evropské unie z korpusu [[http://langtech.jrc.it/JRC-Acquis.html|Acquis Communautaire]] | * právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]] |
* zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]] | * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]] |
* filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]] | * filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]] |
^ nizozemština | ✔ | | | [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]] | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | | ^ nizozemština | ✔ | | | [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]] | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | |
^ norština | ✔ | ✔ | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] | | [[http://omilia.uio.no/obt/|Oslo Bergen Tagger]] | | ^ norština | ✔ | ✔ | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] | | [[http://omilia.uio.no/obt/|Oslo Bergen Tagger]] | |
^ polština | ✔ | ✔ | [[http://korpus.pl/en/cheatsheet/node2.html|anglicky]] a [[http://korpus.pl/pl/cheatsheet/node2.html|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] | [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] | | ^ polština | ✔ | ✔ | [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://korpus.pl/pl/cheatsheet/node2.html|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] | [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] | |
^ portugalština | ✔ | ✔ | [[http://utkl.ff.cuni.cz/%7Erosen/public/ETIQUETAS_EAGLES_REDUCIDAS.webarchive|španělsky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | | ^ portugalština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | |
^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | | ^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | |
^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] | [[http://korpus.sk/attachments/publications/2004-garabik-gianitsova-horak-simkova-tokenizacia.pdf|slovensky]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | | ^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] | [[http://korpus.sk/attachments/publications/2004-garabik-gianitsova-horak-simkova-tokenizacia.pdf|slovensky]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | |
^ slovinština | ✔ | ✔ | | [[http://nl.ijs.si/ME/V3/msd/html/msd.html#SECTION05600000000000000000|anglicky]] | [[http://nl2.ijs.si/analyze/|totale]] | | ^ slovinština | ✔ | ✔ | [[http://nl.ijs.si/ME/V4/msd/html/msd.msds-sl.html|anglicky a slovinsky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sl.introduction.html|anglicky]] | [[http://nl2.ijs.si/analyze/|totale]] | |
^ španělština | ✔ | ✔ | [[ftp://ftp.ims.uni-stuttgart.de/pub/corpora/spanish-tagset.txt|anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | | ^ španělština | ✔ | ✔ | [[ftp://ftp.ims.uni-stuttgart.de/corpora/spanish-tagset.txt|anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | |
^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | | ^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | |
| |