AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze16ud [2025/01/10 20:53] – [Velikost korpusu podle jazyků] alexandrrosencnk:intercorp:verze16ud [2026/04/07 22:43] (aktuální) – [To nejdůležitější o verzi 16ud] alexandrrosen
Řádek 11: Řádek 11:
 ^ ::: ^ rok zveřejnění |  2024  ^^^^ ^ ::: ^ rok zveřejnění |  2024  ^^^^
 ^ ::: ^ cizích jazyků |  61  ^^^^ ^ ::: ^ cizích jazyků |  61  ^^^^
-^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  49  ^^^^ +^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  48  ^^^^ 
-^ ::: ^ jazyků s [[pojmy:lemma|lemmaty]] |  49  ^^^^ +^ ::: ^ jazyků s [[pojmy:lemma|lemmaty]] |  48  ^^^^ 
-^ ::: ^ jazyků se syntaktickou anotací |  49  ^^^^+^ ::: ^ jazyků se syntaktickou anotací |  48  ^^^^
  
 ====Přístup k textům==== ====Přístup k textům====
Řádek 30: Řádek 30:
   * Po verzi 13ud, 16ud je druhá verze InterCorpu s lingvistickou anotací podle standardu [[pojmy:ud|Universal Dependencies]].   * Po verzi 13ud, 16ud je druhá verze InterCorpu s lingvistickou anotací podle standardu [[pojmy:ud|Universal Dependencies]].
   * Verze 16ud je prvním korpusem ČNK, který obsahuje metriky <fs large>**[[pojmy:syntakticka_komplexita|syntaktické komplexity]]**</fs> a <fs large>**[[https://wiki.korpus.cz/doku.php/pojmy:lexikalni_bohatost#lexikalni_diverzita|lexikální diverzity]]**</fs>.((Děkujeme Olze Nádvorníkové, která rozšíření anotace korpusu o míry syntaktické komplexity a lexikální diverzity iniciovala a vedla. Děkujeme také Jiřímu Miličkovi za cenné rady při výběru vhodných měr lexikální diverzity.))   * Verze 16ud je prvním korpusem ČNK, který obsahuje metriky <fs large>**[[pojmy:syntakticka_komplexita|syntaktické komplexity]]**</fs> a <fs large>**[[https://wiki.korpus.cz/doku.php/pojmy:lexikalni_bohatost#lexikalni_diverzita|lexikální diverzity]]**</fs>.((Děkujeme Olze Nádvorníkové, která rozšíření anotace korpusu o míry syntaktické komplexity a lexikální diverzity iniciovala a vedla. Děkujeme také Jiřímu Miličkovi za cenné rady při výběru vhodných měr lexikální diverzity.))
-  * Z celkového počtu 62 jazyků (včetně češtiny) je ve verzi 16ud **lingvisticky anotovaných 47**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**.+  * Z celkového počtu 62 jazyků (včetně češtiny) je ve verzi 16ud **lingvisticky anotovaných 48**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**.
   * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]).   * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]).
   * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Při anotaci toho korpusu jsme použili tyto modely:: afrikaans-afribooms-ud-2.12-230717,    * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Při anotaci toho korpusu jsme použili tyto modely:: afrikaans-afribooms-ud-2.12-230717,