Corpus diacronico dell’italiano – ‘Diachronní korpus italštiny’
CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. Korpus je v ČNK hostován díky Marii Silvii Micheli, která ho sestavila. CODIT pokrývá celé období vývoje italštiny od 13. století do roku 1947, jeho struktura je analogická ke korpusu MIDIA (Morfologia Italiana in Diacronia), který dosahuje velikosti 7,5 mil. tokenů. Korpus CODIT není prozatím anotován, v budoucnu však počítáme s doplněním morfologického značkování a lemmatizace. Korpus je rozdělen do 5 hlavních částí podle období, které pokrývají. Periodizace vychází z korpusu MIDIA a je založena na důležitých historických a literárních událostech:
Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je nejstarší období, v němž chybějí odborné texty. Všechny texty byly do korpusu zařazeny celé. Každé období je pokryto přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou toho nejstaršího, které je menší (4,5 mil. tokenů) kvůli obtížné dostupnosti textů. Struktura korpusu rozděleného do pěti (téměř) srovnatelných částí umožňuje provádět empiricky založený diachronní výzkum italštiny.
1 | 2 | 3 | 4 | 5 | |
---|---|---|---|---|---|
espositivi | 1,769,404 | 640,421 | 2,108,827 | 1,183,644 | 1,316,872 |
personali | 30,950 | 1,219,559 | 1,092,217 | 1,766,867 | 1,485,151 |
poesia | 1,079,833 | 1,895,432 | 1,442,983 | 974,229 | 1,525,861 |
prosa | 1,552,473 | 1,762,005 | 1,590,731 | 1,705,824 | 1,885,084 |
scientifici | 0 | 593,168 | 716,098 | 824,532 | 742,856 |
teatro | 79,213 | 478,787 | 545,645 | 541,389 | 546,750 |
CELKEM | 4,511,873 | 6,589,372 | 7,496,501 | 6,996,485 | 7,502,574 |
Tabulka 1: Velikost jednotlivých částí korpusu CODIT
Micheli, M. S.: CODIT: Corpus diacronico dell’italiano. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz