AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze9 [2016/06/30 15:56] – [Morfosyntaktická anotace] adrianzasinacnk:intercorp:verze9 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek
Řádek 9: Řádek 9:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  120 443 181 |  117 981 673 |  278 445 878 |  1 556 840 965 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  120 443 181 |  117 981 673 |  278 445 878 |  1 556 840 965 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  96 956 714 |  89 645 545 |  231 501 606 |  1 228 896 294 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  96 956 714 |  89 645 545 |  231 501 606 |  1 228 896 294 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1430 |  5 |  2 934 |  89 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1430 |  5 |  2 934 |  89 |
 ^ ::: ^ Počet div |  1 430 |  111 263 |  2 934 |  1 849 184 | ^ ::: ^ Počet div |  1 430 |  111 263 |  2 934 |  1 849 184 |
 ^ ::: ^ Počet vět |  8 308 814 |  13 588 082 |  17 210 601 |  143 478 514 | ^ ::: ^ Počet vět |  8 308 814 |  13 588 082 |  17 210 601 |  143 478 514 |
Řádek 35: Řádek 35:
 <WRAP round info 50%> <WRAP round info 50%>
 ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427 ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. //International Journal of Corpus Linguistics//. Vol. 13, no. 3, p. 411–427
-([[http://ucnk.ff.cuni.cz/intercorp/?req=page:references_bibtex&lang=cs|bibtex]], #nefunguje+([[http://ucnk.ff.cuni.cz/intercorp/?req=page:references_bibtex&lang=cs|bibtex]],
 [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]).  [[http://dx.doi.org/10.1075/ijcl.17.3.05cer|elektronické vydání na serveru ingentaConnect]], [[http://utkl.ff.cuni.cz/~rosen/public/2012_intercorp_ijcl.pdf|verze před tiskem]]). 
  
Řádek 51: Řádek 51:
  
   * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop)   * publistické články a zpravodajství z webových stránek [[http://www.project-syndicate.org|Project Syndicate]] a [[http://www.voxeurop.eu|VoxEurop]] (dříve PressEurop)
-  * právní texty Evropské unie z korpusu [[http://langtech.jrc.it/JRC-Acquis.html|Acquis Communautaire]]+  * právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis|Acquis Communautaire]]
   * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]]   * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http://www.statmt.org/europarl|Europarl]]
   * filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]]   * filmové titulky z databáze [[http://www.opensubtitles.org|OpenSubtitles]]
Řádek 88: Řádek 88:
 |  ja  | japonština |  0 |  0 |  0 |  0 |  0 |  113 |  113 | |  ja  | japonština |  0 |  0 |  0 |  0 |  0 |  113 |  113 |
 |  lt  | litevština |  358 |  0 |  0 |  18 392 |  11 212 |  557 |  30 521 | |  lt  | litevština |  358 |  0 |  0 |  18 392 |  11 212 |  557 |  30 521 |
-|  lv  | lotyština |  1 336 |  0 |  0 |  18 709 |  11 682 |  279 |  32 007 |+|  lv  | lotyština |  1 666 |  0 |  0 |  24 667 |  13 895 |  381 |  40 609 |
 |  mk  | makedonština |  4 663 |  0 |  0 |  0 |  0 |  1 877 |  6 540 | |  mk  | makedonština |  4 663 |  0 |  0 |  0 |  0 |  1 877 |  6 540 |
 |  ms  | malajština |  0 |  0 |  0 |  0 |  0 |  3 520 |  3 520 | |  ms  | malajština |  0 |  0 |  0 |  0 |  0 |  3 520 |  3 520 |
Řádek 130: Řádek 130:
 ^ maďarština |  ✔  |          [[http://utkl.ff.cuni.cz/%7Erosen/public/kr_for_ldc.pdf|anglicky]]  |  [[http://code.google.com/p/hunpos/|HunPos]]  | ^ maďarština |  ✔  |          [[http://utkl.ff.cuni.cz/%7Erosen/public/kr_for_ldc.pdf|anglicky]]  |  [[http://code.google.com/p/hunpos/|HunPos]]  |
 ^ němčina |  ✔  |  ✔  |  [[http://www.sketchengine.co.uk/documentation/wiki/tagsets/german_rftagger|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  | ^ němčina |  ✔  |  ✔  |  [[http://www.sketchengine.co.uk/documentation/wiki/tagsets/german_rftagger|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  |
-^ nizozemština |  ✔  |         |  [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]]  |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |+^ nizozemština |  ✔  |       [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |  [[http://www.inl.nl/tst-centrale/images/stories/producten/documentatie/ehc_handleiding_nl.pdf|nizozemsky]]  |  [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]]  |
 ^ norština |  ✔  |  ✔  | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] |      [[https://visl.sdu.dk/remoting.html|VISL]]  | ^ norština |  ✔  |  ✔  | [[http://tekstlab.uio.no/obt-ny/english/tagset.html|anglicky]] [[http://tekstlab.uio.no/obt-ny/index.html|norsky]] |      [[https://visl.sdu.dk/remoting.html|VISL]]  |
 ^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]]  | ^ polština |  ✔  |  ✔  |  [[http://nkjp.pl/poliqarp/help/ense2.html#x3-20002|anglicky]] a [[http://nkjp.pl/poliqarp/help/plse2.html#x3-20002|polsky]]  |  [[http://nlp.ipipan.waw.pl/%7Eadamp/Papers/2003-eacl-ws12/|anglicky]]  |  [[http://sgjp.pl/morfeusz/|Morfeusz]], [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]]  |
Řádek 157: Řádek 157:
 ^Struktura^Atribut^Popis^Možné hodnoty^ ^Struktura^Atribut^Popis^Možné hodnoty^
 |doc|doc.id|unikátní identifikátor dokumentu|text| |doc|doc.id|unikátní identifikátor dokumentu|text|
-| |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / rn / pt / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh|+| |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh|
 | |doc.version|verze textu|číslo| | |doc.version|verze textu|číslo|
 | |doc.wordcount|velikost dokumentu ve slovech|číslo| | |doc.wordcount|velikost dokumentu ve slovech|číslo|
Řádek 170: Řádek 170:
 | |div.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles| | |div.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles|
 | |div.original|je text originálem?|Yes / No| | |div.original|je text originálem?|Yes / No|
-| |div.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / rn / pt / rm / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh|+| |div.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / rn / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh|
 | |div.translator|překladatel textu|příjmení, jméno| | |div.translator|překladatel textu|příjmení, jméno|
 | |div.transsex|pohlaví překladatele|F / M| | |div.transsex|pohlaví překladatele|F / M|
Řádek 215: Řádek 215:
  
  
-  * Tabulka uvádí počty textů v jádru korpusu InterCorp.+  * Tabulka uvádí počty textů v jádru korpusu InterCorp (zatím ve verzi 8).
   * Pro každý jazyk, který má v jádru nějaké texty, jsou v příslušném řádku uvedeny počty textů, zvlášť podle jazyka originálu, uvedeného v záhlaví příslušného sloupce. Takže např. v arabštině jádro obsahuje jeden arabský, jeden český a jeden německý originální text. Celkem jsou tedy v jádru 3 texty v arabštině (viz předposlední sloupec).   * Pro každý jazyk, který má v jádru nějaké texty, jsou v příslušném řádku uvedeny počty textů, zvlášť podle jazyka originálu, uvedeného v záhlaví příslušného sloupce. Takže např. v arabštině jádro obsahuje jeden arabský, jeden český a jeden německý originální text. Celkem jsou tedy v jádru 3 texty v arabštině (viz předposlední sloupec).
   * Ve sloupcích lze zjistit, kolik originálních textů v jazyku uvedeném v záhlaví je přeloženo do ostatních jazyků. Kódy těchto jazyků jsou v prvním sloupci. Poslední sloupec udává počet originálních textů v jiných jazycích, které jádro InterCorpu neobsahuje.   * Ve sloupcích lze zjistit, kolik originálních textů v jazyku uvedeném v záhlaví je přeloženo do ostatních jazyků. Kódy těchto jazyků jsou v prvním sloupci. Poslední sloupec udává počet originálních textů v jiných jazycích, které jádro InterCorpu neobsahuje.
Řádek 228: Řádek 228:
   * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi   * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3|ASPAC – Amsterdam Slavic Parallel Aligned Corpus]] – zvláštní poděkování patří Adrianu Barentsenovi
   * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]]   * publicistické texty ve více jazycích z webových stránek [[http://www.project-syndicate.org/|Project Syndicate]]
-  * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|Presseurop/VoxEurop]]+  * publicistické texty ve více jazycích ze serveru [[http://www.voxeurop.eu|VoxEurop]]
   * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]]   * právnické texty v jazycích EU z korpusu [[http://wt.jrc.it/lt/Acquis/|JRC-ACQUIS]]
   * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]]   * jednání Evropského parlamentu z korpusu [[http://www.statmt.org/europarl/|EuroParl]]
Řádek 248: Řádek 248:
  
  
-=== Značkovače / lematizátory: ===+=== Značkovače / lemmatizátory: ===
  
   * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu   * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu
Řádek 255: Řádek 255:
   * [[http://code.google.com/p/hunpos/|HunPOS]] pro maďarštinu a další jazyky   * [[http://code.google.com/p/hunpos/|HunPOS]] pro maďarštinu a další jazyky
   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)
-  * tagger pro litevštinus poděkováním Vidasovi Daudaravičiusovi a Haně Skoumalové+  * tagger pro litevštinu (s poděkováním Vidasu Daudaravičiusovi a Haně Skoumalové)
   * [[http://omilia.uio.no/obt/|tagger]] pro norštinu   * [[http://omilia.uio.no/obt/|tagger]] pro norštinu
   * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi)   * [[http://nl2.ijs.si/analyze/|totale]] pro slovinštinu (s poděkováním Tomaži Erjavcovi)
   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu   * [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]] pro němčinu
-  * [[https://github.com/TurkuNLP/Finnish-dep-parser|OMorFi+HunPOS]] pro finštinu (s poděkováním Filipu Ginterovi)+  * [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/omor/omorfi/README.shtml|OMorFi]] pro finštinu (s poděkováním Filipu Ginterovi)
   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
 +  *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)
 +  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)
  
 ---- ----
- 
 ==== Související odkazy ==== ==== Související odkazy ====