Toto je starší verze dokumentu!
Korpus CODIT
Corpus diacronico dell’italiano – ‘Diachronní korpus italštiny’
CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. Pokrývá celé období vývoje italštiny od prvních zmínek ve 13. století do roku 1947. Struktura korpusu CODIT je analogická ke korpusu MIDIA (Morfologia Italiana in Diacronia, který dosahuje velikosti 7,5 mil. tokenů. Korpus CODIT není prozatím anotován, v budoucnu však počítáme s doplněním morfologického značkování a lemmatizace. Korpus je rozdělen do 5 hlavních částí podle období, které pokrývají. Periodizace vychází z korpusu MIDIA a je založena na důležitých historických a literárních událostech:
- 13. století – 1375: od prvních zmínek po Boccacciovu smrt.
- 1376–1532: období humanismu a renesance; končí rokem 1532, kdy bylo publikováno třetí vydání Zuřivého Rolanda Ludovica Ariosta.
- 1533–1691: období manýrismu a baroka; končí rokem 1691, kdy bylo publikováno třetí vydání Vocabolaria od Accademie della Crusca.
- 1692–1840: období osvícenství a romantismu; končí rokem 1840, kdy bylo publikováno revidované vydání Snoubenců Alessandra Manzoniho.
- 1841–1947: období sjednocování Itálie do konce druhé světové války; končí zveřejněním italské ústavy v roce 1947.
Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je první část, která neobsahuje odborné texty. Každý text byl do korpusu zařazen celý. Každá část obsahuje přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou první části, která je menší (4,5 mil. tokenů) kvůli obtížné dostupnosti textů. Struktura korpusu rozděleného na pět (téměř) srovnatelných částí umožňuje provádět diachronní empirický výzkum italštiny.
1 | 2 | 3 | 4 | 5 | |
---|---|---|---|---|---|
espositivi | 1,769,404 | 640,421 | 2,108,827 | 1,183,644 | 1,316,872 |
personali | 30,950 | 1,219,559 | 1,092,217 | 1,766,867 | 1,485,151 |
poesia | 1,079,833 | 1,895,432 | 1,442,983 | 974,229 | 1,525,861 |
prosa | 1,552,473 | 1,762,005 | 1,590,731 | 1,705,824 | 1,885,084 |
scientifici | 0 | 593,168 | 716,098 | 824,532 | 742,856 |
teatro | 79,213 | 478,787 | 545,645 | 541,389 | 546,750 |
TOT | 4,511,873 | 6,589,372 | 7,496,501 | 6,996,485 | 7,502,574 |
Tabulka 1: Velikost jednotlivých částí korpusu CODIT
Jak citovat CODIT
Micheli, M. S.: CODIT: Corpus diacronico dell’italiano. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz