Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:intercorp:verze8 [2016/01/27 17:51] – [Počet textů v jádru korpusu podle jazyka textu a jazyka originálu] vaclavcvrcek | cnk:intercorp:verze8 [2016/06/22 15:10] – [Jak citovat] alexandrrosen |
---|
~~NOTOC~~ | ~~NOTOC~~ |
| |
<HTML> | |
<style> | |
table.std { | |
margin-bottom: 15px; | |
padding: 0px; | |
border-collapse: separate; | |
border-spacing: 0px; | |
border: 1px solid #DEE7EC; | |
vertical-align: middle; | |
border-collapse: expression('separate', cellSpacing = '0px'); /* ie fix */ | |
} | |
table.std th { | |
background-color: #DEE7EC; | |
padding: 3px 6px; | |
color: #0d2a40; | |
font-weight: bold; | |
border-bottom: 1px solid #8CACBB; | |
border-right: 1px solid #8CACBB; | |
border-top: 1px solid #8CACBB; | |
border-left: 1px solid #8CACBB; | |
white-space: nowrap; | |
} | |
table.std td { | |
padding: 3px 6px; | |
vertical-align: middle; | |
border-bottom: 1px solid #8CACBB; | |
border-right: 1px solid #8CACBB; | |
border-top: 1px solid #8CACBB; | |
border-left: 1px solid #8CACBB; | |
color:#0d2a40; | |
white-space: nowrap; | |
background-color: transparent; | |
} | |
| |
table.std img { | |
display: inline; | |
margin: 5px; | |
vertical-align: middle; | |
} | |
| |
table.std thead { | |
font-weight: bold; | |
font-size: medium; | |
} | |
| |
table.std a:hover img { | |
border: 1px solid; | |
background: #f3e4a7; color: #0d2a40; | |
} | |
| |
table.std a:hover { | |
background: transparent; | |
} | |
</style> | |
</HTML> | |
=====Korpus InterCorp verze 8===== | =====Korpus InterCorp verze 8===== |
| |
InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. | InterCorp je přístupný přes běžný webový prohlížeč z jednotného vyhledávacího rozhraní [[manualy:kontext:index|KonText]] pomocí speciálního [[kurz:hledani_v_paralelnim_korpusu|dotazovacího formuláře]] pro paralelní korpusy. |
| |
Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. Zájemci se mohou obrátit na níže uvedenou e-mailovou adresu. | Texty z korpusu InterCorp lze získat po podpisu licenčního ujednání pro neziskové účely také v podobě dvojjazyčných souborů náhodně seřazených dvojic vět. |
| |
Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze. Starší verze InterCorpu jsou od roku 2014 zpětně dostupné. | Specifikem InterCorpu je jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné [[pojmy:referencni|referenční]] entity, objem textů a případně i počet jazyků a rozsah anotace se postupně zvětšuje, a to vždy s vydáním nové verze. Starší verze InterCorpu jsou od roku 2014 zpětně dostupné. |
==== Jak citovat ==== | ==== Jak citovat ==== |
| |
Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu [[http://www.korpus.cz/intercorp|www.korpus.cz/intercorp]] a k odborným publikacím odkaz na článek | Budeme rádi, když k výsledkům práce, při níž využijete korpus InterCorp, připojíte odkaz na stránky projektu [[http://www.korpus.cz/intercorp|www.korpus.cz/intercorp]] a k odborným publikacím odkaz na tento článek: |
| |
| <WRAP round info 50%> |
ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427 | ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427 |
([[http://ucnk.ff.cuni.cz/intercorp/?req=page:references_bibtex&lang=cs|bibtex]], [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). | ([[http://ucnk.ff.cuni.cz/intercorp/?req=page:references_bibtex&lang=cs|bibtex]], [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). |
| |
Seznam další literatury najdete [[http://ucnk.ff.cuni.cz/intercorp/?req=page:ic_bibl&lang=cs|zde]], případně v [[http://biblio.korpus.cz/|repozitáři bibliografických informací založených na ČNK]]. | Seznam další literatury najdete v [[http://biblio.korpus.cz|Repozitáři bibliografických informací založených na ČNK]]. Každý odkaz na práci využívající InterCorp je vítán, viz [[https://www.korpus.cz/biblio_appeal.php|podrobnosti]]. |
| |
| |
| Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: |
| |
| Rosen, A. – Vavřín, M.: //Korpus InterCorp – angličtina, němčina((Vložte konkrétní jazyky.)), verze 7 z 19.12.2014//. Ústav Českého národního korpusu, FF UK, Praha 2014. Dostupné z WWW: http://www.korpus.cz |
| |
| </WRAP> |
==== Obsah korpusu ==== | ==== Obsah korpusu ==== |
| |
| |
* publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop) | * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop) |
* právní texty Evropské Unie z korpusu [[http://langtech.jrc.it/JRC-Acquis.html|Acquis Communautaire]] | * právní texty Evropské unie z korpusu [[http://langtech.jrc.it/JRC-Acquis.html|Acquis Communautaire]] |
* zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]] | * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]] |
* filmové titulky ze databáze [[http://www.opensubtitles.org|Open Subtitles]] | * filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]] |
| |
Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. neobsahují texty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly také částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //Open Subtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Na druhé straně byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů. | Tyto texty jsou zarovnány jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Kolekce také neobsahují všechny texty z původního zdroje, např. ty, které nemají český protějšek. Některé texty z korpusů //Acquis Communautaire// a //Europarl// byly rovněž částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Podobně byla zredukována i databáze //OpenSubtitles//, kde jsme navíc u každého titulu převzali z více verzí překladu jen jednu. Zato byly doplněny některé metainformace, které v původním zdroji chyběly, ale daly se zjistit z kontextu nebo jiných zdrojů. |
| |
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 8 z května 2015 je 194 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 229 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. | Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 8 z května 2015 činí 194 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 229 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. |
| |
[{{:cnk:intercorp_wordcounts_v8.png|<fs small>Skladba korpusu podle jednotlivých jazyků – jádro i kolekce</fs>}}] | [{{:cnk:intercorp_wordcounts_v8.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}] |
| |
[{{:cnk:intercorp_wordcounts2_v8.png|<fs small>Skladba korpusu podle jednotlivých jazyků – jádro</fs>}}] | [{{:cnk:intercorp_wordcounts2_v8.png|Skladba korpusu podle jednotlivých jazyků – jádro}}] |
| |
[{{:cnk:intercorp_wordcounts3_v8.png|<fs small>Skladba korpusu podle jednotlivých jazyků – kolekce</fs>}}] | [{{:cnk:intercorp_wordcounts3_v8.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] |
| |
====Velikost korpusu v tisících slov==== | ====Velikost korpusu v tisících slov==== |
^ francouzština | ✔ | ✔ | [[http://www.ims.uni-stuttgart.de/%7Eschmid/french-tagset.html|anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | | ^ francouzština | ✔ | ✔ | [[http://www.ims.uni-stuttgart.de/%7Eschmid/french-tagset.html|anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | |
^ islandština | ✔ | ✔ | | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] | | ^ islandština | ✔ | ✔ | | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|IceStagger]] | |
^ italština | ✔ | ✔ | [[ftp://ftp.ims.uni-stuttgart.de/pub/corpora/italian-tagset.txt|anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | | ^ italština | ✔ | ✔ | [[ftp://ftp.ims.uni-stuttgart.de/corpora/italian-tagset.txt|anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | |
^ litevština | ✔ | ✔ | [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/tags.html|česky a anglicky]] | [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/LT-POS.pdf|anglicky]] | Autor: [[http://senas.vdu.lt/staff/informatics/CVPDF/CV_Daudaravicius_en.pdf|Vidas Daudaravičius]] | | ^ litevština | ✔ | ✔ | [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/tags.html|česky a anglicky]] | [[http://utkl.ff.cuni.cz/~skoumal/CZ-LT-CORP/LT-POS.pdf|anglicky]] | Autor: [[http://senas.vdu.lt/staff/informatics/CVPDF/CV_Daudaravicius_en.pdf|Vidas Daudaravičius]] | |
^ maďarština | ✔ | | | [[http://utkl.ff.cuni.cz/%7Erosen/public/kr_for_ldc.pdf|anglicky]] | [[http://code.google.com/p/hunpos/|HunPos]] | | ^ maďarština | ✔ | | | [[http://utkl.ff.cuni.cz/%7Erosen/public/kr_for_ldc.pdf|anglicky]] | [[http://code.google.com/p/hunpos/|HunPos]] | |
^ nizozemština | ✔ | | | [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]] | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | | ^ nizozemština | ✔ | | | [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]] | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | |
^ norština | ✔ | ✔ | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] | | [[http://omilia.uio.no/obt/|Oslo Bergen Tagger]] | | ^ norština | ✔ | ✔ | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] | | [[http://omilia.uio.no/obt/|Oslo Bergen Tagger]] | |
^ polština | ✔ | ✔ | [[http://korpus.pl/en/cheatsheet/node2.html|anglicky]] a [[http://korpus.pl/pl/cheatsheet/node2.html|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] | [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] | | ^ polština | ✔ | ✔ | [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://korpus.pl/pl/cheatsheet/node2.html|polsky]] | [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]] | [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] | |
^ portugalština | ✔ | ✔ | [[http://utkl.ff.cuni.cz/%7Erosen/public/ETIQUETAS_EAGLES_REDUCIDAS.webarchive|španělsky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | | ^ portugalština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | |
^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | | ^ ruština | ✔ | ✔ | [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%) | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | |
^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] | [[http://korpus.sk/attachments/publications/2004-garabik-gianitsova-horak-simkova-tokenizacia.pdf|slovensky]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | | ^ slovenština | ✔ | ✔ | [[http://korpus.sk/morpho.html/|slovensky]] | [[http://korpus.sk/attachments/publications/2004-garabik-gianitsova-horak-simkova-tokenizacia.pdf|slovensky]] | [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] | |
^ slovinština | ✔ | ✔ | | [[http://nl.ijs.si/ME/V3/msd/html/msd.html#SECTION05600000000000000000|anglicky]] | [[http://nl2.ijs.si/analyze/|totale]] | | ^ slovinština | ✔ | ✔ | [[http://nl.ijs.si/ME/V4/msd/html/msd.msds-sl.html|anglicky a slovinsky]] | [[http://nl.ijs.si/ME/V4/msd/html/msd-sl.introduction.html|anglicky]] | [[http://nl2.ijs.si/analyze/|totale]] | |
^ španělština | ✔ | ✔ | [[ftp://ftp.ims.uni-stuttgart.de/pub/corpora/spanish-tagset.txt|anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | | ^ španělština | ✔ | ✔ | [[ftp://ftp.ims.uni-stuttgart.de/corpora/spanish-tagset.txt|anglicky]] | | [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] | |
^ švédština | ✔ | ✔ | | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | | ^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | |
| |
| |
| |
| |
U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś// za //Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky. | U textů se značkami, případně lemmaty, mohou přímočaře formulované dotazy na spřežková slova zůstat bez odpovědi. To se týká například anglických tvarů //can't// nebo //I'm//, které tagger rozdělí na dvě slova (//ca//+//n't// a //I//+//'m//) s odpovídajícími lemmaty a značkami. Podobně je tomu i s polskými tvary typu //byłam// nebo //gdybyś// (rozděleno na //była//+//m// a //gdyby//+//ś//). Je třeba počítat i s chybným rozdělením: //gdzie//+//ś za Wisłą//. Dotaz na celou spřežku je nutné zadat jako **Fráze** a části spřežky oddělit mezerou. Lemmatem a značkou jsou opatřeny jen části spřežky. |
| |
| |
* Ve sloupcích lze zjistit, kolik originálních textů v jazyku uvedeném v záhlaví je přeloženo do ostatních jazyků. Kódy těchto jazyků jsou v prvním sloupci. Poslední sloupec udává počet originálních textů v jiných jazycích, které jádro InterCorpu neobsahuje. | * Ve sloupcích lze zjistit, kolik originálních textů v jazyku uvedeném v záhlaví je přeloženo do ostatních jazyků. Kódy těchto jazyků jsou v prvním sloupci. Poslední sloupec udává počet originálních textů v jiných jazycích, které jádro InterCorpu neobsahuje. |
* V diagonále tabulky je počet originálních textů v příslušném jazyce. Např. v maďarštině a rumunštině nemáme žádný originální text, v rumunštině ani v překladu. | * V diagonále tabulky je počet originálních textů v příslušném jazyce. Např. v maďarštině a rumunštině nemáme žádný originální text, v rumunštině ani v překladu. |
====Dotazy, připomínky a podněty==== | |
<HTML> | |
| |
<p> | ==== Poděkování ==== |
... k obsahu korpusu a podobě vyhledávacích rozhraní můžete vznést v <a href="https://podpora.korpus.cz/projects/poradna">Poradně</a> nebo na adrese | |
</p> | |
<p><img src="http://ucnk.ff.cuni.cz/intercorp/img/adresy/mava_a.gif">.</p> | |
| |
| Děkujeme za možnost využívat následující texty a software: |
| |
</HTML> | === Texty: === |
====Poděkování==== | |
<HTML> | |
| |
<p>Děkujeme za možnost využívat následující texty a software:</p> | * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi |
| * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]] |
| * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|Presseurop/VoxEurop]] |
| * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]] |
| * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]] |
| * slovensko-české konkordance ze [[http://korpus.juls.savba.sk/|Slovenského národního korpusu]] |
| * povídky ve více jazycích z projektu //Můj rok 1989// z [[http://www.goethe.de/ins/cz/pra/|Goethe Institutu]] |
| * za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi |
| * román George Orwella //1984// ve více jazycích z korpusu [[http://nl.ijs.si/ME/|Multext-East]] |
| * ukrajinské a polské texty z korpusu [[http://www.domeczek.pl/~polukr/|PolUkr]] |
| * norské texty z nakladatelství [[http://www.aschehoug.no/|Forlaget Oktober]] |
| * filmové titulky z databáze [[http://www.opensubtitles.org|Open Subtitles]] |
| |
<h3>Texty:</h3> | === Předzpracování: === |
<ul> | |
<li>beletristické texty v řadě slovanských i jiných jazyků z korpusu <a href="http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3" target="_blank">ASPAC – Amsterdam Slavic Parallel Aligned Corpus</a> – zvláštní poděkování patří Adrianu Barentsenovi</li> | |
<li>publicistické texty ve více jazycích z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> <a id="logo" href="http://www.project-syndicate.org/"><img class="nodeco" alt="The highest quality commentaries and analysis from distinguished voices across the world." title="The highest quality commentaries and analysis from distinguished voices across the world." src="http://www.project-syndicate.org/default/images/ps_logo-small.png" /></a></li> | |
<li>publicistické texty ve více jazycích ze serveru <a href="http://www.voxeurop.eu" target="_blank">Presseurop/VoxEurop</a></li> | |
<li>právnické texty v jazycích EU z korpusu <a href="http://wt.jrc.it/lt/Acquis/" target="_blank">JRC-ACQUIS</a></li> | |
<li>jednání Evropského parlamentu z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">EuroParl</a></li> | |
<li>slovensko-české konkordance ze <a href="http://korpus.juls.savba.sk/" target="_blank">Slovenského národního korpusu</a> </li> | |
<li>povídky ve více jazycích z projektu <i>Můj rok 1989</i> z <a href="http://www.goethe.de/ins/cz/pra/" target="_blank">Goethe Institutu</a> | |
<li>za více textů v česko-litevské části korpusu a za práci Jiřího Levého Umění překladu ve více jazycích vděčíme Patricku Cornessovi</li> | |
<li>román George Orwella <i>1984</i> ve více jazycích z korpusu <a href="http://nl.ijs.si/ME/" target="_blank">Multext-East</a></li> | |
<li>ukrajinské a polské texty z korpusu <a href="http://www.domeczek.pl/~polukr/" target="_blank">PolUkr</a></li> | |
<li>norské texty z nakladatelství <a href="http://www.aschehoug.no/" target="_blank">Aschehoug & co.</a>, <a href="http://www.cappelendamm.no/" target="_blank">Cappelen Forlag</a> a <a href="http://www.oktober.no/" target="_blank">Forlaget Oktober</a></li> | |
<li>filmové titulky z databáze <a href="http://www.opensubtitles.org" target="_blank">Open Subtitles</a> </li> | |
</ul> | |
| |
</HTML> | * editor paralelních textů [[http://wanthalf.saga.cz/intertext|InterText]] (autor Pavel Vondřička) |
===Předzpracování=== | * zarovnávač [[http://mokk.bme.hu/resources/hunalign|Hunalign]] |
<HTML> | * větný segmentátor pro češtinu (autor Pavel Květoň) |
| * větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička) |
| * větný segmentátor Punkt pro všechny ostatní jazyky ze sady [[http://www.nltk.org|Natural Language Toolkit]] |
| |
<ul> | |
<li>editor paralelních textů <a href="http://wanthalf.saga.cz/intertext" target="_blank">InterText</a> (autor Pavel Vondřička)</li> | |
<li>zarovnávač <a href="http://mokk.bme.hu/resources/hunalign" target="_blank">Hunalign</a></li> | |
<li>větný segmentátor pro češtinu (autor Pavel Květoň)</li> | |
<li>větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)</li> | |
<li>větný segmentátor Punkt pro všechny ostatní jazyky ze sady <a href="http://www.nltk.org/" target="_blank">Natural Language Toolkit</a> </li> | |
</ul> | |
</HTML> | |
===Značkovače / lematizátory:=== | |
<HTML> | |
| |
<ul> | === Značkovače / lematizátory: === |
<li><a href="http://ufal.mff.cuni.cz/morfflex">MorfFlex</a>, <a href="http://ufal.mff.cuni.cz/morce/index.php" target="_blank">Morče</a> a <a href= "https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10">LanGr</a> pro češtinu</li> | |
<li><a href="http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html" target="_blank">TreeTagger</a> pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu</li> | |
<li><a href="http://sgjp.pl/morfeusz/" target="_blank">Morfeusz</a> a <a href="http://nlp.pwr.wroc.pl/takipi/" target="_blank">TaKIPI</a> pro polštinu</li> | |
<li><a href="http://code.google.com/p/hunpos/" target="_blank">HunPOS</a> pro maďarštinu a další jazyky</li> | |
<li><a href="http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf" target="_blank">tagger pro slovenštinu</a> (s poděkováním Radovanu Garabíkovi) </li> | |
<li>tagger pro litevštinu, s poděkováním Vidasovi Daudaravičiusovi a Haně Skoumalové | |
<li><a href="http://omilia.uio.no/obt/" target="_blank">tagger</a> pro norštinu</li> | |
<li><a href="http://nl2.ijs.si/analyze/" target="_blank">totale</a> pro slovinštinu (s poděkováním Tomaži Erjavcovi)</li> | |
<li><a href="http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/" target="_blank">RFTagger</a> pro němčinu</li> | |
<li><a href="https://github.com/TurkuNLP/Finnish-dep-parser" target="_blank">OMorFi+HunPOS</a> pro finštinu (s poděkováním Filipu Ginterovi)</li> | |
<li><a href="http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986" target="_blank">Stagger a IceStagger</a> pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)</li> | |
</ul> | |
| |
</HTML> | * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu |
| * [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu |
| * [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] pro polštinu |
| * [[http://code.google.com/p/hunpos/|HunPOS]] pro maďarštinu a další jazyky |
| * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi) |
| * tagger pro litevštinu, s poděkováním Vidasovi Daudaravičiusovi a Haně Skoumalové |
| * [[http://omilia.uio.no/obt/|tagger]] pro norštinu |
| * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi) |
| * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu |
| * [[https://github.com/TurkuNLP/Finnish-dep-parser|OMorFi+HunPOS]] pro finštinu (s poděkováním Filipu Ginterovi) |
| * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi) |
| |
| ---- |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] | [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] |
| |
Viz též [[http://ucnk.ff.cuni.cz/intercorp/|původní stránky projektu InterCorp]]. | Viz též [[http://ucnk.ff.cuni.cz/intercorp/|původní stránky projektu InterCorp]]. %%//%% See [[http://ucnk.ff.cuni.cz/intercorp/?lang=en|the original InterCorp site in English]]. |
| |
See [[http://ucnk.ff.cuni.cz/intercorp/?lang=en|the original InterCorp site in English]]. | |
</WRAP> | </WRAP> |