AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze16ud [2025/01/10 20:40] – [Korpus InterCorp verze 16ud – Universal Dependencies] alexandrrosencnk:intercorp:verze16ud [2026/04/07 22:43] (aktuální) – [To nejdůležitější o verzi 16ud] alexandrrosen
Řádek 11: Řádek 11:
 ^ ::: ^ rok zveřejnění |  2024  ^^^^ ^ ::: ^ rok zveřejnění |  2024  ^^^^
 ^ ::: ^ cizích jazyků |  61  ^^^^ ^ ::: ^ cizích jazyků |  61  ^^^^
-^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  49  ^^^^ +^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  48  ^^^^ 
-^ ::: ^ jazyků s [[pojmy:lemma|lemmaty]] |  49  ^^^^ +^ ::: ^ jazyků s [[pojmy:lemma|lemmaty]] |  48  ^^^^ 
-^ ::: ^ jazyků se syntaktickou anotací |  49  ^^^^+^ ::: ^ jazyků se syntaktickou anotací |  48  ^^^^
  
 ====Přístup k textům==== ====Přístup k textům====
Řádek 30: Řádek 30:
   * Po verzi 13ud, 16ud je druhá verze InterCorpu s lingvistickou anotací podle standardu [[pojmy:ud|Universal Dependencies]].   * Po verzi 13ud, 16ud je druhá verze InterCorpu s lingvistickou anotací podle standardu [[pojmy:ud|Universal Dependencies]].
   * Verze 16ud je prvním korpusem ČNK, který obsahuje metriky <fs large>**[[pojmy:syntakticka_komplexita|syntaktické komplexity]]**</fs> a <fs large>**[[https://wiki.korpus.cz/doku.php/pojmy:lexikalni_bohatost#lexikalni_diverzita|lexikální diverzity]]**</fs>.((Děkujeme Olze Nádvorníkové, která rozšíření anotace korpusu o míry syntaktické komplexity a lexikální diverzity iniciovala a vedla. Děkujeme také Jiřímu Miličkovi za cenné rady při výběru vhodných měr lexikální diverzity.))   * Verze 16ud je prvním korpusem ČNK, který obsahuje metriky <fs large>**[[pojmy:syntakticka_komplexita|syntaktické komplexity]]**</fs> a <fs large>**[[https://wiki.korpus.cz/doku.php/pojmy:lexikalni_bohatost#lexikalni_diverzita|lexikální diverzity]]**</fs>.((Děkujeme Olze Nádvorníkové, která rozšíření anotace korpusu o míry syntaktické komplexity a lexikální diverzity iniciovala a vedla. Děkujeme také Jiřímu Miličkovi za cenné rady při výběru vhodných měr lexikální diverzity.))
-  * Z celkového počtu 62 jazyků (včetně češtiny) je ve verzi 16ud **lingvisticky anotovaných 47**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**.+  * Z celkového počtu 62 jazyků (včetně češtiny) je ve verzi 16ud **lingvisticky anotovaných 48**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**.
   * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]).   * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]).
   * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Při anotaci toho korpusu jsme použili tyto modely:: afrikaans-afribooms-ud-2.12-230717,    * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Při anotaci toho korpusu jsme použili tyto modely:: afrikaans-afribooms-ud-2.12-230717, 
Řádek 211: Řádek 211:
 ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=pt|pt]]|    107|   147 063|   46 510,1|   280 566,2|   355 121,8| ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=pt|pt]]|    107|   147 063|   46 510,1|   280 566,2|   355 121,8|
 ^[[https://en.wikipedia.org/wiki/Romani_language|rn]]|    2|    2|    1,7|    13,6|    17,7| ^[[https://en.wikipedia.org/wiki/Romani_language|rn]]|    2|    2|    1,7|    13,6|    17,7|
-^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ru]]|    55|   102 904|   39 561,2|   235 702,3|   295 301,3| 
 ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ro]]|    184|   32 839|   22 985,2|   122 130,4|   163 120,7| ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ro]]|    184|   32 839|   22 985,2|   122 130,4|   163 120,7|
 +^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ru]]|    55|   102 904|   39 561,2|   235 702,3|   295 301,3|
 ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=si|si]]|    1|    499|    522,5|   2 313,4|   3 021,8| ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=si|si]]|    1|    499|    522,5|   2 313,4|   3 021,8|
 ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=sk|sk]]|    170|   94 585|   10 080,0|   74 862,7|   95 881,0| ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=sk|sk]]|    170|   94 585|   10 080,0|   74 862,7|   95 881,0|