====== Korpus CODIT ====== //Corpus diacronico dell’italiano// -- ‘Diachronní korpus italštiny’ {{ :en:cnk:codit-logo.png?direct&180|}} CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. Korpus je v ČNK hostován díky [[https://www.unimib.it/maria-silvia-micheli|Marii Silvii Micheli]], která ho sestavila. CODIT pokrývá celé období vývoje italštiny od 13. století do roku 1947, jeho struktura je analogická ke korpusu [[http://www.corpusmidia.unito.it/|MIDIA]] (//Morfologia Italiana in Diacronia//), který dosahuje velikosti 7,5 mil. tokenů. Korpus CODIT není prozatím anotován, v budoucnu však počítáme s doplněním morfologického značkování a lemmatizace. Korpus je rozdělen do 5 hlavních částí podle období, které pokrývají. Periodizace vychází z korpusu MIDIA a je založena na důležitých historických a literárních událostech: - 13. století -- 1375: období končí Boccacciovou smrtí. - 1376 -- 1532: období humanismu a renesance; končí rokem 1532, kdy bylo publikováno třetí vydání //Zuřivého Rolanda// Ludovica Ariosta. - 1533 -- 1691: období manýrismu a baroka; končí rokem 1691, kdy Accademia della Crusca publikuje třetí vydání //Vocabolaria//. - 1692 -- 1840: období osvícenství a romantismu; končí rokem 1840, kdy bylo publikováno revidované vydání //Snoubenců// Alessandra Manzoniho. - 1841 -- 1947: období sjednocování Itálie do konce druhé světové války; končí zveřejněním italské ústavy v roce 1947. Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je nejstarší období, v němž chybějí odborné texty. Všechny texty byly do korpusu zařazeny celé. Každé období je pokryto přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou toho nejstaršího, které je menší (4,5 mil. tokenů) kvůli obtížné dostupnosti textů. Struktura korpusu rozděleného do pěti (téměř) srovnatelných částí umožňuje provádět empiricky založený diachronní výzkum italštiny. ^ ^ 1 ^ 2 ^ 3 ^ 4 ^ 5 ^ ^ espositivi| 1,769,404| 640,421| 2,108,827| 1,183,644| 1,316,872| ^ personali| 30,950| 1,219,559| 1,092,217| 1,766,867| 1,485,151| ^ poesia| 1,079,833| 1,895,432| 1,442,983| 974,229| 1,525,861| ^ prosa| 1,552,473| 1,762,005| 1,590,731| 1,705,824| 1,885,084| ^ scientifici| 0| 593,168| 716,098| 824,532| 742,856| ^ teatro| 79,213| 478,787| 545,645| 541,389| 546,750| ^ CELKEM| 4,511,873| 6,589,372| 7,496,501| 6,996,485| 7,502,574| **Tabulka 1**: Velikost jednotlivých částí korpusu CODIT ===== Jak citovat CODIT ===== Micheli, M. S.: //CODIT: Corpus diacronico dell’italiano//. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz