Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:intercorp:verze9 [2016/06/30 15:56] – [Morfosyntaktická anotace] adrianzasina | cnk:intercorp:verze9 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek | ||
---|---|---|---|
Řádek 9: | Řádek 9: | ||
^ [[pojmy: | ^ [[pojmy: | ||
^ ::: ^ Počet [[pojmy: | ^ ::: ^ Počet [[pojmy: | ||
- | ^ [[pojmy: | + | ^ [[pojmy: |
^ ::: ^ Počet div | 1 430 | 111 263 | 2 934 | 1 849 184 | | ^ ::: ^ Počet div | 1 430 | 111 263 | 2 934 | 1 849 184 | | ||
^ ::: ^ Počet vět | 8 308 814 | 13 588 082 | 17 210 601 | 143 478 514 | | ^ ::: ^ Počet vět | 8 308 814 | 13 588 082 | 17 210 601 | 143 478 514 | | ||
Řádek 35: | Řádek 35: | ||
<WRAP round info 50%> | <WRAP round info 50%> | ||
ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. // | ČERMÁK, F. – ROSEN, A. (2012). The case of InterCorp, a multilingual parallel corpus. // | ||
- | ([[http:// | + | ([[http:// |
[[http:// | [[http:// | ||
Řádek 51: | Řádek 51: | ||
* publistické články a zpravodajství z webových stránek [[http:// | * publistické články a zpravodajství z webových stránek [[http:// | ||
- | * právní texty Evropské unie z korpusu [[http://langtech.jrc.it/JRC-Acquis.html|Acquis Communautaire]] | + | * právní texty Evropské unie z korpusu [[https://ec.europa.eu/jrc/ |
* zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http:// | * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http:// | ||
* filmové titulky z databáze [[http:// | * filmové titulky z databáze [[http:// | ||
Řádek 88: | Řádek 88: | ||
| ja | japonština | 0 | 0 | 0 | 0 | 0 | 113 | 113 | | | ja | japonština | 0 | 0 | 0 | 0 | 0 | 113 | 113 | | ||
| lt | litevština | 358 | 0 | 0 | 18 392 | 11 212 | 557 | 30 521 | | | lt | litevština | 358 | 0 | 0 | 18 392 | 11 212 | 557 | 30 521 | | ||
- | | lv | lotyština | 1 336 | 0 | 0 | | + | | lv | lotyština | 1 666 | 0 | 0 | |
| mk | makedonština | 4 663 | 0 | 0 | 0 | 0 | 1 877 | 6 540 | | | mk | makedonština | 4 663 | 0 | 0 | 0 | 0 | 1 877 | 6 540 | | ||
| ms | malajština | 0 | 0 | 0 | 0 | 0 | 3 520 | 3 520 | | | ms | malajština | 0 | 0 | 0 | 0 | 0 | 3 520 | 3 520 | | ||
Řádek 130: | Řádek 130: | ||
^ maďarština | ✔ | | ^ maďarština | ✔ | | ||
^ němčina | ✔ | ✔ | [[http:// | ^ němčina | ✔ | ✔ | [[http:// | ||
- | ^ nizozemština | ✔ | | + | ^ nizozemština | ✔ | |
^ norština | ✔ | ✔ | [[http:// | ^ norština | ✔ | ✔ | [[http:// | ||
^ polština | ✔ | ✔ | [[http:// | ^ polština | ✔ | ✔ | [[http:// | ||
Řádek 157: | Řádek 157: | ||
^Struktura^Atribut^Popis^Možné hodnoty^ | ^Struktura^Atribut^Popis^Možné hodnoty^ | ||
|doc|doc.id|unikátní identifikátor dokumentu|text| | |doc|doc.id|unikátní identifikátor dokumentu|text| | ||
- | | |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / rn / pt / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| | + | | |doc.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| |
| |doc.version|verze textu|číslo| | | |doc.version|verze textu|číslo| | ||
| |doc.wordcount|velikost dokumentu ve slovech|číslo| | | |doc.wordcount|velikost dokumentu ve slovech|číslo| | ||
Řádek 170: | Řádek 170: | ||
| |div.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles| | | |div.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles| | ||
| |div.original|je text originálem? | | |div.original|je text originálem? | ||
- | | |div.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / rn / pt / rm / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| | + | | |div.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / rn / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| |
| |div.translator|překladatel textu|příjmení, | | |div.translator|překladatel textu|příjmení, | ||
| |div.transsex|pohlaví překladatele|F / M| | | |div.transsex|pohlaví překladatele|F / M| | ||
Řádek 215: | Řádek 215: | ||
- | * Tabulka uvádí počty textů v jádru korpusu InterCorp. | + | * Tabulka uvádí počty textů v jádru korpusu InterCorp |
* Pro každý jazyk, který má v jádru nějaké texty, jsou v příslušném řádku uvedeny počty textů, zvlášť podle jazyka originálu, uvedeného v záhlaví příslušného sloupce. Takže např. v arabštině jádro obsahuje jeden arabský, jeden český a jeden německý originální text. Celkem jsou tedy v jádru 3 texty v arabštině (viz předposlední sloupec). | * Pro každý jazyk, který má v jádru nějaké texty, jsou v příslušném řádku uvedeny počty textů, zvlášť podle jazyka originálu, uvedeného v záhlaví příslušného sloupce. Takže např. v arabštině jádro obsahuje jeden arabský, jeden český a jeden německý originální text. Celkem jsou tedy v jádru 3 texty v arabštině (viz předposlední sloupec). | ||
* Ve sloupcích lze zjistit, kolik originálních textů v jazyku uvedeném v záhlaví je přeloženo do ostatních jazyků. Kódy těchto jazyků jsou v prvním sloupci. Poslední sloupec udává počet originálních textů v jiných jazycích, které jádro InterCorpu neobsahuje. | * Ve sloupcích lze zjistit, kolik originálních textů v jazyku uvedeném v záhlaví je přeloženo do ostatních jazyků. Kódy těchto jazyků jsou v prvním sloupci. Poslední sloupec udává počet originálních textů v jiných jazycích, které jádro InterCorpu neobsahuje. | ||
Řádek 228: | Řádek 228: | ||
* beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http:// | * beletristické texty v řadě slovanských i jiných jazyků z korpusu [[http:// | ||
* publicistické texty ve více jazycích z webových stránek [[http:// | * publicistické texty ve více jazycích z webových stránek [[http:// | ||
- | * publicistické texty ve více jazycích ze serveru [[http:// | + | * publicistické texty ve více jazycích ze serveru [[http:// |
* právnické texty v jazycích EU z korpusu [[http:// | * právnické texty v jazycích EU z korpusu [[http:// | ||
* jednání Evropského parlamentu z korpusu [[http:// | * jednání Evropského parlamentu z korpusu [[http:// | ||
Řádek 248: | Řádek 248: | ||
- | === Značkovače / lematizátory: === | + | === Značkovače / lemmatizátory: === |
* [[http:// | * [[http:// | ||
Řádek 255: | Řádek 255: | ||
* [[http:// | * [[http:// | ||
* [[http:// | * [[http:// | ||
- | * tagger pro litevštinu, s poděkováním | + | * tagger pro litevštinu |
* [[http:// | * [[http:// | ||
* [[http:// | * [[http:// | ||
* [[http:// | * [[http:// | ||
- | * [[https://github.com/TurkuNLP/Finnish-dep-parser|OMorFi+HunPOS]] pro finštinu (s poděkováním Filipu Ginterovi) | + | * [[http://www.ling.helsinki.fi/kieliteknologia/tutkimus/ |
* [[http:// | * [[http:// | ||
+ | * | ||
+ | * [[https:// | ||
---- | ---- | ||
- | |||
==== Související odkazy ==== | ==== Související odkazy ==== | ||