Toto je starší verze dokumentu!
Korpus CODIT
Corpus diacronico dell’italiano – ‘Diachronní korpus italštiny’
CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. Pokrývá celé období vývoje italštiny od 13. století do roku 1947. Struktura korpusu CODIT je analogická ke korpusu MIDIA (Morfologia Italiana in Diacronia), který dosahuje velikosti 7,5 mil. tokenů. Korpus CODIT není prozatím anotován, v budoucnu však počítáme s doplněním morfologického značkování a lemmatizace. Korpus je rozdělen do 5 hlavních částí podle období, které pokrývají. Periodizace vychází z korpusu MIDIA a je založena na důležitých historických a literárních událostech:
- 13. století – 1375: období končí Boccacciovou smrtí.
- 1376 – 1532: období humanismu a renesance; končí rokem 1532, kdy bylo publikováno třetí vydání Zuřivého Rolanda Ludovica Ariosta.
- 1533 – 1691: období manýrismu a baroka; končí rokem 1691, kdy Accademia della Crusca publikuje třetí vydání Vocabolaria.
- 1692 – 1840: období osvícenství a romantismu; končí rokem 1840, kdy bylo publikováno revidované vydání Snoubenců Alessandra Manzoniho.
- 1841 – 1947: období sjednocování Itálie do konce druhé světové války; končí zveřejněním italské ústavy v roce 1947.
Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je nejstarší období, v němž chybějí odborné texty. Všechny texty byly do korpusu zařazeny celé. Každé období je pokryto přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou toho nejstaršího, které je menší (4,5 mil. tokenů) kvůli obtížné dostupnosti textů. Struktura korpusu rozděleného do pěti (téměř) srovnatelných částí umožňuje provádět empiricky založený diachronní výzkum italštiny.
1 | 2 | 3 | 4 | 5 | |
---|---|---|---|---|---|
espositivi | 1,769,404 | 640,421 | 2,108,827 | 1,183,644 | 1,316,872 |
personali | 30,950 | 1,219,559 | 1,092,217 | 1,766,867 | 1,485,151 |
poesia | 1,079,833 | 1,895,432 | 1,442,983 | 974,229 | 1,525,861 |
prosa | 1,552,473 | 1,762,005 | 1,590,731 | 1,705,824 | 1,885,084 |
scientifici | 0 | 593,168 | 716,098 | 824,532 | 742,856 |
teatro | 79,213 | 478,787 | 545,645 | 541,389 | 546,750 |
TOT | 4,511,873 | 6,589,372 | 7,496,501 | 6,996,485 | 7,502,574 |
Tabulka 1: Velikost jednotlivých částí korpusu CODIT
Jak citovat CODIT
Micheli, M. S.: CODIT: Corpus diacronico dell’italiano. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz