AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Poslední revizeObě strany příští revize
cnk:intercorp:verze13ud [2022/08/13 10:04] alexandrrosencnk:intercorp:verze13ud [2022/08/29 18:03] jankrivan
Řádek 4: Řádek 4:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  141 124 127 |  117 877 960 |  391 209 482 |  1 518 645 852 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  141 124 127 |  117 877 960 |  391 209 482 |  1 518 645 852 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  113 934 806 |  89 973 959 |   327 497 843 |  1 219 622 437 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  113 934 806 |  89 973 959 |   327 497 843 |  1 219 622 437 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 657 |  30 |  3 994 |   282 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 657 |  30 |  3 994 |   282 |
 ^ ::: ^ Počet textů |  1 657 |  111 951 |  3 994 |  1 843 528 | ^ ::: ^ Počet textů |  1 657 |  111 951 |  3 994 |  1 843 528 |
 ^ ::: ^ Počet vět |  9 782 002 |  13 606 198 |  24 318 736 |  143 196 252 | ^ ::: ^ Počet vět |  9 782 002 |  13 606 198 |  24 318 736 |  143 196 252 |
Řádek 29: Řádek 29:
   * Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud **lingvisticky anotovaných 36**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**.   * Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud **lingvisticky anotovaných 36**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**.
   * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]).   * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]).
-  * Podrobný popis využití anotace podle UD v korpusu InterCorp najdete pod heslem [[https://wiki.korpus.cz/doku.php/pojmy:ud|Universal Dependencies]] ve [[https://wiki.korpus.cz/doku.php/pojmy:prehled_pojmu|Slovníčku pojmů ČNK]].+  * Podrobný popis využití anotace podle UD v korpusu InterCorp najdete pod heslem [[pojmy:ud|Universal Dependencies]] ve [[pojmy:prehled_pojmu|Slovníčku pojmů ČNK]].
   * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce [[https://lindat.mff.cuni.cz/services/udpipe/IUDPipe]]. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830,   * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce [[https://lindat.mff.cuni.cz/services/udpipe/IUDPipe]]. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830,
 belarusian-hse-ud-2.6-200830, belarusian-hse-ud-2.6-200830,