AplikaceAplikace
Nastavení

Korpus CODIT

Corpus diacronico dell’italiano – ‘Diachronní korpus italštiny’

CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. Korpus je v ČNK hostován díky Marii Silvii Micheli, která ho sestavila. CODIT pokrývá celé období vývoje italštiny od 13. století do roku 1947, jeho struktura je analogická ke korpusu MIDIA (Morfologia Italiana in Diacronia), který dosahuje velikosti 7,5 mil. tokenů. Korpus CODIT není prozatím anotován, v budoucnu však počítáme s doplněním morfologického značkování a lemmatizace. Korpus je rozdělen do 5 hlavních částí podle období, které pokrývají. Periodizace vychází z korpusu MIDIA a je založena na důležitých historických a literárních událostech:

  1. 13. století – 1375: období končí Boccacciovou smrtí.
  2. 1376 – 1532: období humanismu a renesance; končí rokem 1532, kdy bylo publikováno třetí vydání Zuřivého Rolanda Ludovica Ariosta.
  3. 1533 – 1691: období manýrismu a baroka; končí rokem 1691, kdy Accademia della Crusca publikuje třetí vydání Vocabolaria.
  4. 1692 – 1840: období osvícenství a romantismu; končí rokem 1840, kdy bylo publikováno revidované vydání Snoubenců Alessandra Manzoniho.
  5. 1841 – 1947: období sjednocování Itálie do konce druhé světové války; končí zveřejněním italské ústavy v roce 1947.

Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je nejstarší období, v němž chybějí odborné texty. Všechny texty byly do korpusu zařazeny celé. Každé období je pokryto přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou toho nejstaršího, které je menší (4,5 mil. tokenů) kvůli obtížné dostupnosti textů. Struktura korpusu rozděleného do pěti (téměř) srovnatelných částí umožňuje provádět empiricky založený diachronní výzkum italštiny.

1 2 3 4 5
espositivi 1,769,404 640,421 2,108,827 1,183,644 1,316,872
personali 30,950 1,219,559 1,092,217 1,766,867 1,485,151
poesia 1,079,833 1,895,432 1,442,983 974,229 1,525,861
prosa 1,552,473 1,762,005 1,590,731 1,705,824 1,885,084
scientifici 0 593,168 716,098 824,532 742,856
teatro 79,213 478,787 545,645 541,389 546,750
CELKEM 4,511,873 6,589,372 7,496,501 6,996,485 7,502,574

Tabulka 1: Velikost jednotlivých částí korpusu CODIT

Jak citovat CODIT

Micheli, M. S.: CODIT: Corpus diacronico dell’italiano. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz