Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize |
cnk:intercorp:verze13ud [2022/08/13 10:01] – alexandrrosen | cnk:intercorp:verze13ud [2022/08/29 18:03] – jankrivan |
---|
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 141 124 127 | 117 877 960 | 391 209 482 | 1 518 645 852 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 141 124 127 | 117 877 960 | 391 209 482 | 1 518 645 852 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 113 934 806 | 89 973 959 | 327 497 843 | 1 219 622 437 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 113 934 806 | 89 973 959 | 327 497 843 | 1 219 622 437 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 657 | 30 | 3 994 | 282 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 657 | 30 | 3 994 | 282 | |
^ ::: ^ Počet textů | 1 657 | 111 951 | 3 994 | 1 843 528 | | ^ ::: ^ Počet textů | 1 657 | 111 951 | 3 994 | 1 843 528 | |
^ ::: ^ Počet vět | 9 782 002 | 13 606 198 | 24 318 736 | 143 196 252 | | ^ ::: ^ Počet vět | 9 782 002 | 13 606 198 | 24 318 736 | 143 196 252 | |
* Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud **lingvisticky anotovaných 36**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**. | * Z celkového počtu 41 jazyků (včetně češtiny) je ve verzi 13ud **lingvisticky anotovaných 36**; všechny takové jazyky jsou navíc vybaveny i **syntaktickou anotací**. |
* Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]). | * Texty jsou ve všech jazycích **anotované stejně**, a to podle standardu UD ([[https://universaldependencies.org|Universal Dependencies]]). |
* Podrobný popis využití anotace podle UD v korpusu InterCorp najdete pod heslem [[https://wiki.korpus.cz/doku.php/pojmy:ud|Universal Dependencies]] ve [[https://wiki.korpus.cz/doku.php/pojmy:prehled_pojmu|Slovníčku pojmů ČNK]]. | * Podrobný popis využití anotace podle UD v korpusu InterCorp najdete pod heslem [[pojmy:ud|Universal Dependencies]] ve [[pojmy:prehled_pojmu|Slovníčku pojmů ČNK]]. |
* Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce [[https://lindat.mff.cuni.cz/services/udpipe/IUDPipe]]. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830, | * Anotaci provedl u všech jazyků nástroj [[https://ufal.mff.cuni.cz/udpipe|UDPipe]] na základě dat vytvořených v projektu UD.((Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce [[https://lindat.mff.cuni.cz/services/udpipe/IUDPipe]]. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830, |
belarusian-hse-ud-2.6-200830, | belarusian-hse-ud-2.6-200830, |
</WRAP> | </WRAP> |
| |
===== Odkazy ===== | |
| |
==== Výběr literatury k UD ==== | |
| |
Marie-Catherine de Marneffe, Christopher Manning, Joakim Nivre, Daniel Zeman (2021): [[https://doi.org/10.1162/coli_a_00402|Universal Dependencies]]. In: //Computational Linguistics//, ISSN 1530-9312, vol. 47, no. 2, pp. 255-308. | |
| |
Timothy Baldwin, William Croft, Joakim Nivre, Agata Savary (2021): [[https://drops.dagstuhl.de/opus/volltexte/2021/15591/pdf/dagrep_v011_i007_p089_21351.pdf|Universals of Linguistic Idiosyncrasy in Multilingual Computational Linguistics]]. Report from Dagstuhl Seminar 21351. DOI: 10.4230/DagRep.11.7.89 | |
| |
Daniel Zeman (2018): [[https://ufal.mff.cuni.cz/books/2018-zeman|The World of Tokens, Tags and Trees]]. ISBN 978-80-88132-09-7. | |
| |
Úplný seznam najdete [[https://universaldependencies.org/introduction.html#ud-related-publications|zde]]. | |
| |
==== Tutoriály a přednášky o UD ==== | |
| |
Daniel Zeman: [[https://www.youtube.com/watch?v=xUmZ8Mxcmg0|Universal Dependencies and the Slavic Languages]]. Warszawa, 19.11.2018. | |
| |
Joakim Nivre, Daniel Zeman, Filip Ginter, Francis M. Tyers: [[http://universaldependencies.org/eacl17tutorial/adding.pdf|Tutorial on Universal Dependencies: Adding a new language to UD]] | |
| |
Anna Nedoluzhko, Michal Novák, Martin Popel, Zdeněk Žabokrtský, Daniel Zeman: [[https://lectures.ms.mff.cuni.cz/view.php?rec=475|Coreference meets Universal Dependencies]]. Praha, 19/04/2021. | |
| |
Daniel Zeman: [[https://lectures.ms.mff.cuni.cz/view.php?rec=421|Reflexives in Universal Dependencies]]. Praha, 04/03/2019. | |
| |
==== O korpusu InterCorp s anotací podle UD ==== | |
| |
Olga Nádvorníková, Alexandr Rosen, Martin Vavřín: InterCorp s jednotnou morfologickou a syntaktickou anotací podle Universal Dependencies: zážitky tvůrců a uživatelů. Praha, 16/11/2021. | |
[[https://sdileni.korpus.cz/s/JwtY7fTcoDdbcse|Video]], pdf: [[https://owncloud.korpus.cz/s/JfKWHCecnG7nCEt|zážitky tvůrců]], [[https://owncloud.korpus.cz/s/pYwKr57QRNyfCx2|zážitky uživatelů]]. | |
| |
==== Viz též ==== | ==== Viz též ==== |