AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze8 [2016/01/28 10:19] – Citace Václav Cvrčekcnk:intercorp:verze8 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC Václav Cvrček (admin)
Řádek 9: Řádek 9:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  105 239 198 |  117 981 673 |  233 509 950 |  1 560 655 498 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  105 239 198 |  117 981 673 |  233 509 950 |  1 560 655 498 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  84 718 325 |  89 645 545 |  194 055 340 |  1 229 043 791 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  84 718 325 |  89 645 545 |  194 055 340 |  1 229 043 791 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 279 |  5 |  2 513 |  89 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 279 |  5 |  2 513 |  89 |
 ^ ::: ^ Počet div |  1 279 |  111 263 |  2 513 |  1 849 184 | ^ ::: ^ Počet div |  1 279 |  111 263 |  2 513 |  1 849 184 |
 ^ ::: ^ Počet vět |  7 250 794 |  13 588 082 |  14 377 637 |  143 478 514 | ^ ::: ^ Počet vět |  7 250 794 |  13 588 082 |  14 377 637 |  143 478 514 |
Řádek 21: Řádek 21:
  
 ====Přístup k textům==== ====Přístup k textům====
 +
 +Po registraci na stránce [[https://www.korpus.cz/toolbar/signup.php|Prohlášení uživatele korpusů ÚČNK]] lze korpus prohledávat přes webové rozhraní. Registrace platí pro všechny veřejně přístupné korpusy ÚČNK. Máte-li uživatelské jméno a heslo k české části Českého národního korpusu, další registraci pro paralelní korpus nepotřebujete.
  
 InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy.
Řádek 26: Řádek 28:
 Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu. Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu.
  
-Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním  nové verzeStarší verze InterCorpu jsou od roku 2014 zpětně dostupné. +Obvykle jednou ročně vychází nová verze InterCorpu. V každé nové verzi roste objem textůpřípadně i počet jazyků a rozsah anotace. Předchozí verze jsou přitom stále dostupné; od verze 6 dál přitom budou všechny původní zůstávat stále dostupné.
 ==== Jak citovat ==== ==== Jak citovat ====
  
Řádek 35: Řádek 36:
 ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427 ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427
 ([[http://ucnk.ff.cuni.cz/intercorp/?req=page:references_bibtex&lang=cs|bibtex]], [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]).  ([[http://ucnk.ff.cuni.cz/intercorp/?req=page:references_bibtex&lang=cs|bibtex]], [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). 
-</WRAP> 
  
-Seznam další literatury najdete v [[http://biblio.korpus.cz|Repozitáři bibliografických informací založených na ČNK]]. +Seznam další literatury najdete v [[http://biblio.korpus.cz|Repozitáři bibliografických informací založených na ČNK]]. Každý odkaz na práci využívající InterCorp je vítán, viz [[https://www.korpus.cz/biblio_appeal.php|podrobnosti]].
  
 +
 +Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:
 +
 +Rosen, A. – Vavřín, M.: //Korpus InterCorp – angličtina, němčina((Vložte konkrétní jazyky.)), verze 7 z 19.12.2014//. Ústav Českého národního korpusu, FF UK, Praha 2014. Dostupné z WWW: http://www.korpus.cz
 +
 +</WRAP>
 ==== Obsah korpusu ==== ==== Obsah korpusu ====
  
Řádek 44: Řádek 50:
  
   * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop)   * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop)
-  * právní texty Evropské Unie z korpusu [[http://langtech.jrc.it/JRC-Acquis.html|Acquis Communautaire]] +  * právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]] 
-  * zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]] +  * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]] 
-  * filmové titulky ze databáze [[http://www.opensubtitles.org|Open Subtitles]]+  * filmové titulky databáze [[http://www.opensubtitles.org|OpenSubtitles]]
  
-Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //Open Subtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.+Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //OpenSubtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů.
  
-Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 8 z května 2015 je 194 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 229 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.+Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 8 z května 2015 činí 194 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 229 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
  
 [{{:cnk:intercorp_wordcounts_v8.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] [{{:cnk:intercorp_wordcounts_v8.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}]
Řádek 116: Řádek 122:
 ^ francouzština |  ✔  |  ✔  |  [[http://www.ims.uni-stuttgart.de/%7Eschmid/french-tagset.html|anglicky]]  |      [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  | ^ francouzština |  ✔  |  ✔  |  [[http://www.ims.uni-stuttgart.de/%7Eschmid/french-tagset.html|anglicky]]  |      [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
 ^ islandština |  ✔  |  ✔  |          [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]]  | ^ islandština |  ✔  |  ✔  |          [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]]  |
-^ italština |  ✔  |  ✔  |  [[ftp://ftp.ims.uni-stuttgart.de/pub/corpora/italian-tagset.txt|anglicky]]  |      [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |+^ italština |  ✔  |  ✔  |  [[ftp://ftp.ims.uni-stuttgart.de/corpora/italian-tagset.txt|anglicky]]  |      [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
 ^ litevština |  ✔  |  ✔  |  [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/tags.html|česky a anglicky]]  |  [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/LT-POS.pdf|anglicky]]  |  Autor: [[http://senas.vdu.lt/staff/informatics/CVPDF/CV_Daudaravicius_en.pdf|Vidas Daudaravičius]]  | ^ litevština |  ✔  |  ✔  |  [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/tags.html|česky a anglicky]]  |  [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/LT-POS.pdf|anglicky]]  |  Autor: [[http://senas.vdu.lt/staff/informatics/CVPDF/CV_Daudaravicius_en.pdf|Vidas Daudaravičius]]  |
 ^ maďarština |  ✔  |          [[http://utkl.ff.cuni.cz/%7Erosen/public/kr_for_ldc.pdf|anglicky]]  |  [[http://code.google.com/p/hunpos/|HunPos]]  | ^ maďarština |  ✔  |          [[http://utkl.ff.cuni.cz/%7Erosen/public/kr_for_ldc.pdf|anglicky]]  |  [[http://code.google.com/p/hunpos/|HunPos]]  |
Řádek 122: Řádek 128:
 ^ nizozemština |  ✔  |          [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]]  |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  | ^ nizozemština |  ✔  |          [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]]  |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
 ^ norština |  ✔  |  ✔  | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] |      [[http://omilia.uio.no/obt/|Oslo Bergen Tagger]]  | ^ norština |  ✔  |  ✔  | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] |      [[http://omilia.uio.no/obt/|Oslo Bergen Tagger]]  |
-^ polština |  ✔  |  ✔  |  [[http://korpus.pl/en/cheatsheet/node2.html|anglicky]] a [[http://korpus.pl/pl/cheatsheet/node2.html|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] +^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://korpus.pl/pl/cheatsheet/node2.html|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] 
-^ portugalština |  ✔  |  ✔  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/ETIQUETAS_EAGLES_REDUCIDAS.webarchive|španělsky]]  |      [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |+^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |      [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
 ^ ruština |  ✔  |  ✔  |  [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]]  |  [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%)  |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  | ^ ruština |  ✔  |  ✔  |  [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]]  |  [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%)  |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
 ^ slovenština |  ✔  |  ✔  |  [[http://korpus.sk/morpho.html/|slovensky]]  |  [[http://korpus.sk/attachments/publications/2004-garabik-gianitsova-horak-simkova-tokenizacia.pdf|slovensky]]  |  [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]]  | ^ slovenština |  ✔  |  ✔  |  [[http://korpus.sk/morpho.html/|slovensky]]  |  [[http://korpus.sk/attachments/publications/2004-garabik-gianitsova-horak-simkova-tokenizacia.pdf|slovensky]]  |  [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]]  |
-^ slovinština |  ✔  |  ✔  |     |  [[http://nl.ijs.si/ME/V3/msd/html/msd.html#SECTION05600000000000000000|anglicky]]  |  [[http://nl2.ijs.si/analyze/|totale]] +^ slovinština |  ✔  |  ✔  |  [[http://nl.ijs.si/ME/V4/msd/html/msd.msds-sl.html|anglicky a slovinsky]]   |  [[http://nl.ijs.si/ME/V4/msd/html/msd-sl.introduction.html|anglicky]]  |  [[http://nl2.ijs.si/analyze/|totale]] 
-^ španělština |  ✔  |  ✔  |  [[ftp://ftp.ims.uni-stuttgart.de/pub/corpora/spanish-tagset.txt|anglicky]]  |      [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] +^ španělština |  ✔  |  ✔  |  [[ftp://ftp.ims.uni-stuttgart.de/corpora/spanish-tagset.txt|anglicky]]  |      [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] 
-^ švédština |  ✔  |  ✔  |     |      [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]]  |+^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]   |      [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]]  |
  
  
Řádek 138: Řádek 144:
  
  
-U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś// za //Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.+U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky.
  
  
Řádek 227: Řádek 233:
   * filmové titulky z databáze [[http://www.opensubtitles.org|Open Subtitles]]   * filmové titulky z databáze [[http://www.opensubtitles.org|Open Subtitles]]
  
-=== Předzpracování ===+=== Předzpracování===
  
   * editor paralelních textů [[http://wanthalf.saga.cz/intertext|InterText]] (autor Pavel Vondřička)   * editor paralelních textů [[http://wanthalf.saga.cz/intertext|InterText]] (autor Pavel Vondřička)
Řádek 249: Řádek 255:
   * [[https://github.com/TurkuNLP/Finnish-dep-parser|OMorFi+HunPOS]] pro finštinu (s poděkováním Filipu Ginterovi)   * [[https://github.com/TurkuNLP/Finnish-dep-parser|OMorFi+HunPOS]] pro finštinu (s poděkováním Filipu Ginterovi)
   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
 +
 +----
  
 ==== Související odkazy ==== ==== Související odkazy ====
Řádek 255: Řádek 263:
 [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]]
  
-Viz též [[http://ucnk.ff.cuni.cz/intercorp/|původní stránky projektu InterCorp]]. // See [[http://ucnk.ff.cuni.cz/intercorp/?lang=en|the original InterCorp site in English]].+Viz též [[http://ucnk.ff.cuni.cz/intercorp/|původní stránky projektu InterCorp]]. %%//%% See [[http://ucnk.ff.cuni.cz/intercorp/?lang=en|the original InterCorp site in English]].
 </WRAP> </WRAP>