| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| cnk:intercorp:verze16ud [2024/10/18 20:33] – [Odkazy – o korpusu InterCorp s anotací podle UD] alexandrrosen | cnk:intercorp:verze16ud [2026/04/07 22:43] (aktuální) – [To nejdůležitější o verzi 16ud] alexandrrosen |
|---|
| ^ ::: ^ rok zveřejnění | 2024 ^^^^ | ^ ::: ^ rok zveřejnění | 2024 ^^^^ |
| ^ ::: ^ cizích jazyků | 61 ^^^^ | ^ ::: ^ cizích jazyků | 61 ^^^^ |
| ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 47 ^^^^ | ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 48 ^^^^ |
| ^ ::: ^ jazyků s [[pojmy:lemma|lemmaty]] | 47 ^^^^ | ^ ::: ^ jazyků s [[pojmy:lemma|lemmaty]] | 48 ^^^^ |
| ^ ::: ^ jazyků se syntaktickou anotací | 47 ^^^^ | ^ ::: ^ jazyků se syntaktickou anotací | 48 ^^^^ |
| |
| ====Přístup k textům==== | ====Přístup k textům==== |
| * Po verzi 13ud, 16ud je druhá verze InterCorpu s lingvistickou anotací podle standardu [[pojmy:ud|Universal Dependencies]]. | * Po verzi 13ud, 16ud je druhá verze InterCorpu s lingvistickou anotací podle standardu [[pojmy:ud|Universal Dependencies]]. |
| * Verze 16ud je prvním korpusem ČNK, který obsahuje metriky <fs large>**[[pojmy:syntakticka_komplexita|syntaktické komplexity]]**</fs> a <fs large>**[[https://wiki.korpus.cz/doku.php/pojmy:lexikalni_bohatost#lexikalni_diverzita|lexikální diverzity]]**</fs>.((Děkujeme Olze Nádvorníkové, která rozšíření anotace korpusu o míry syntaktické komplexity a lexikální diverzity iniciovala a vedla. Děkujeme také Jiřímu Miličkovi za cenné rady při výběru vhodných měr lexikální diverzity.)) | * Verze 16ud je prvním korpusem ČNK, který obsahuje metriky <fs large>**[[pojmy:syntakticka_komplexita|syntaktické komplexity]]**</fs> a <fs large>**[[https://wiki.korpus.cz/doku.php/pojmy:lexikalni_bohatost#lexikalni_diverzita|lexikální diverzity]]**</fs>.((Děkujeme Olze Nádvorníkové, která rozšíření anotace korpusu o míry syntaktické komplexity a lexikální diverzity iniciovala a vedla. Děkujeme také Jiřímu Miličkovi za cenné rady při výběru vhodných měr lexikální diverzity.)) |
| * Z celkového počtu 62 jazyků (včetně češtiny) je ve verzi 16ud **lingvisticky anotovaných 47**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**. | * Z celkového počtu 62 jazyků (včetně češtiny) je ve verzi 16ud **lingvisticky anotovaných 48**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**. |
| * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]). | * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]). |
| * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Při anotaci toho korpusu jsme použili tyto modely:: afrikaans-afribooms-ud-2.12-230717, | * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Při anotaci toho korpusu jsme použili tyto modely:: afrikaans-afribooms-ud-2.12-230717, |
| ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=pt|pt]]| 107| 147 063| 46 510,1| 280 566,2| 355 121,8| | ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=pt|pt]]| 107| 147 063| 46 510,1| 280 566,2| 355 121,8| |
| ^[[https://en.wikipedia.org/wiki/Romani_language|rn]]| 2| 2| 1,7| 13,6| 17,7| | ^[[https://en.wikipedia.org/wiki/Romani_language|rn]]| 2| 2| 1,7| 13,6| 17,7| |
| ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ru]]| 55| 102 904| 39 561,2| 235 702,3| 295 301,3| | |
| ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ro]]| 184| 32 839| 22 985,2| 122 130,4| 163 120,7| | ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ro]]| 184| 32 839| 22 985,2| 122 130,4| 163 120,7| |
| | ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ru]]| 55| 102 904| 39 561,2| 235 702,3| 295 301,3| |
| ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=si|si]]| 1| 499| 522,5| 2 313,4| 3 021,8| | ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=si|si]]| 1| 499| 522,5| 2 313,4| 3 021,8| |
| ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=sk|sk]]| 170| 94 585| 10 080,0| 74 862,7| 95 881,0| | ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=sk|sk]]| 170| 94 585| 10 080,0| 74 862,7| 95 881,0| |