AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


RomCro 2.0 - Paralelní korpus románských jazyků a chorvatštiny

Projekt Paralelní korpus románských jazyků a chorvatštiny (RomCro) byl zahájen v roce 2019 na katedře románské lingvistiky Katedry romanistiky Fakulty humanitních a sociálních věd Záhřebské univerzity. Korpus sdružuje pět románských jazyků (francouzštinu, portugalštinu, rumunštinu, italštinu, španělštinu a nedávno katalánštinu) a díky zařazení chorvatštiny přispívá k rozšíření stávajících jazykových zdrojů pro chorvatštinu. Skládá se z literárních textů z 20. a 21. století, přičemž každý text v původním jazyce je doplněn překlady do dalších jazyků. Korpus RomCro vznikl za podpory Fakulty humanitních a společenských věd Univerzity v Záhřebu v letech 2019 až 2025. Nová verze byla rovněž vyvinuta v rámci projektu podporovaného Chorvatskou vědeckou nadací a financovaného Evropskou unií – NextGenerationEU (číslo projektu: MOBODL 2023 08 9511). Nová verze korpusu obsahuje tři nové tituly v portugalštině a chorvatštině. Dále byl přidán šestý románský jazyk, katalánština, a to integrací stávajících katalánských překladů a zařazením tří katalánských románů s překlady do jiných jazyků. Ve srovnání s první verzí korpusu (viz tabulka 1) obsahuje RomCro v.2.0 54 nových textů, o 24 200 překladových jednotek více a o 3,7 milionu slov více, což činí celkem 19,4 milionu slov.

Translated with DeepL.com (free version)

RomCro v.1.0RomCro v.2.0Rozdíl
jazyky 6 7 1
překladové jednotky 142,470 166,742 24,272
originály 27 33 6
počet textů 159 213 54
velikost (v milionech slov) 15.7 19.4 3.7

RomCro byl anotován pomocí UDPipe podle standardu Universal Dependencies (UD), což znamená, že je nejen lematizován a morfologicky tagován, ale jeho anotace zahrnuje i syntaxi. RomCro je zpřístupněn prostřednictvím uživatelského rozhraní KonText způsobem, který navazuje na UD verze paralelního korpusu InterCorp.

Jak citovat RomCro

Bikić-Carić, G., Mikelenić, B. & Bezlaj, M. (2023). Construcción del RomCro, un corpus paralelo multilingüe. Procesamiento del Lenguaje Natural, 70. Sociedad Española para el Procesamiento del Lenguaje Natural, 99-110.

Mikelenić, B., Bikić-Carić, G., Bezlaj, M., Oliver, A. & Tadić, M. (2025). RomCro v.2.0 - Parallel corpus of Romance languages ​​and Croatian, HR-CLARIN, http://hdl.handle.net/20.500.14615/2-16

* The 2023 paper describes the building of RomCro v.1.0, while the 2025 repository entry refers to RomCro v.2.0 in the HR-CLARIN repository. Please cite both sources when referring to the corpus.