Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze16ud [2024/10/11 10:54] – [Podrobné statistiky] alexandrrosen | cnk:intercorp:verze16ud [2025/01/10 21:03] (aktuální) – [Korpus InterCorp verze 16ud – Universal Dependencies] alexandrrosen |
---|
^ ::: ^ rok zveřejnění | 2024 ^^^^ | ^ ::: ^ rok zveřejnění | 2024 ^^^^ |
^ ::: ^ cizích jazyků | 61 ^^^^ | ^ ::: ^ cizích jazyků | 61 ^^^^ |
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 47 ^^^^ | ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 48 ^^^^ |
^ ::: ^ jazyků s [[pojmy:lemma|lemmaty]] | 47 ^^^^ | ^ ::: ^ jazyků s [[pojmy:lemma|lemmaty]] | 48 ^^^^ |
^ ::: ^ jazyků se syntaktickou anotací | 47 ^^^^ | ^ ::: ^ jazyků se syntaktickou anotací | 48 ^^^^ |
| |
====Přístup k textům==== | ====Přístup k textům==== |
^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=pt|pt]]| 107| 147 063| 46 510,1| 280 566,2| 355 121,8| | ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=pt|pt]]| 107| 147 063| 46 510,1| 280 566,2| 355 121,8| |
^[[https://en.wikipedia.org/wiki/Romani_language|rn]]| 2| 2| 1,7| 13,6| 17,7| | ^[[https://en.wikipedia.org/wiki/Romani_language|rn]]| 2| 2| 1,7| 13,6| 17,7| |
^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ru]]| 55| 102 904| 39 561,2| 235 702,3| 295 301,3| | |
^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ro]]| 184| 32 839| 22 985,2| 122 130,4| 163 120,7| | ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ro]]| 184| 32 839| 22 985,2| 122 130,4| 163 120,7| |
| ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ro|ru]]| 55| 102 904| 39 561,2| 235 702,3| 295 301,3| |
^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=si|si]]| 1| 499| 522,5| 2 313,4| 3 021,8| | ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=si|si]]| 1| 499| 522,5| 2 313,4| 3 021,8| |
^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=sk|sk]]| 170| 94 585| 10 080,0| 74 862,7| 95 881,0| | ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=sk|sk]]| 170| 94 585| 10 080,0| 74 862,7| 95 881,0| |
^:::|PressEurop| 7| 6 991| 160,6| 2 725,2| 3 192,6| 546,7| 429,5| 17,486| 2,219| 1,017| 8,508| 2,772| 2,492| | ^:::|PressEurop| 7| 6 991| 160,6| 2 725,2| 3 192,6| 546,7| 429,5| 17,486| 2,219| 1,017| 8,508| 2,772| 2,492| |
^:::|Subtitles| 1| 45 407| 38 108,1| 211 310,4| 266 731,5| 509,0| 351,2| 5,572| 1,388| 0,383| 2,129| 0,795| 1,954| | ^:::|Subtitles| 1| 45 407| 38 108,1| 211 310,4| 266 731,5| 509,0| 351,2| 5,572| 1,388| 0,383| 2,129| 0,795| 1,954| |
^:::|Core-nonfict| 10| 10| 30,6| 518,7| 625,2| 645,0| 495,9| 17,765| 2,613| 1,223| 8,126| 2,801| 2,603| | ^[[https://www.loc.gov/standards/iso639-2/php/langcodes_name.php?iso_639_1=ru|ru]]|Core-nonfict| 10| 10| 30,6| 518,7| 625,2| 645,0| 495,9| 17,765| 2,613| 1,223| 8,126| 2,801| 2,603| |
^:::|Core-fiction| 144| 144| 1 043,5| 11 757,6| 14 913,7| 633,0| 501,9| 11,643| 1,959| 0,865| 4,203| 1,557| 2,386| | ^:::|Core-fiction| 144| 144| 1 043,5| 11 757,6| 14 913,7| 633,0| 501,9| 11,643| 1,959| 0,865| 4,203| 1,557| 2,386| |
^:::|Core-misc| 6| 6| 12,8| 143,8| 180,7| 633,2| 484,5| 11,439| 1,947| 0,870| 4,378| 1,718| 2,265| | ^:::|Core-misc| 6| 6| 12,8| 143,8| 180,7| 633,2| 484,5| 11,439| 1,947| 0,870| 4,378| 1,718| 2,265| |
| |
Olga Nádvorníková a Alexandr Rosen (2024): Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. [[https://www.youtube.com/watch?v=5l5Vbb1eQDw&t=190s|Záznam workshopu]] z 17. 9. 2024, doprovodné akce [[https://bcl2024.ff.cuni.cz|Bienále české lingvistiky 2024]], viz též [[https://jakobson.korpus.cz/~rosen/BCL2024/P18_SLIDES/Prezentace_Bienale2024_WorkShop.pdf|prezentace]]. | Olga Nádvorníková a Alexandr Rosen (2024): Vyhledávání v paralelním korpusu za použití anotace Universal Dependencies. [[https://www.youtube.com/watch?v=5l5Vbb1eQDw&t=190s|Záznam workshopu]] z 17. 9. 2024, doprovodné akce [[https://bcl2024.ff.cuni.cz|Bienále české lingvistiky 2024]], viz též [[https://jakobson.korpus.cz/~rosen/BCL2024/P18_SLIDES/Prezentace_Bienale2024_WorkShop.pdf|prezentace]]. |
| |
| Alexandr Rosen (2024): Lexical and syntactic variability |
| of languages and text genres – a corpus-based study. [[https://www.youtube.com/watch?v=E2ujmqt7Q2E|Záznam přednášky]] ze 14. 10. 2024, [[https://zil.ipipan.waw.pl/seminarium|Seminarium „Przetwarzanie języka naturalnego”]] [[https://zil.ipipan.waw.pl|Zespołu Inżynierii Lingwistycznej]] w [[https://ipipan.waw.pl|Instytucie Podstaw Informatyki]] [[https://pan.pl|Polskiej Akademii Nauk]], viz též [[https://zil.ipipan.waw.pl/seminarium-archiwum?action=AttachFile&do=view&target=2024-10-14.pdf|prezentace]]. |
| |
Alexandr Rosen (2024): Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics. Instytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawski. Warszawa, 10/06/2024. [[https://jakobson.korpus.cz/~rosen/INTERCORP/SLIDES/2024_UDCM_Wwa.pdf|Prezentace]] | Alexandr Rosen (2024): Exploring InterCorp v16ud: the potential of a multilingual parallel treebank with complexity and diversity metrics. Instytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawski. Warszawa, 10/06/2024. [[https://jakobson.korpus.cz/~rosen/INTERCORP/SLIDES/2024_UDCM_Wwa.pdf|Prezentace]] |