AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:codit [2021/03/24 22:55] michalkrencnk:codit [2021/03/29 14:16] (aktuální) – [Korpus CODIT] michalkren
Řádek 5: Řádek 5:
 {{ :en:cnk:codit-logo.png?direct&180|}} {{ :en:cnk:codit-logo.png?direct&180|}}
  
-CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. Pokrývá celé období vývoje italštiny od 13. století do roku 1947. Struktura korpusu CODIT je analogická ke korpusu [[http://www.corpusmidia.unito.it/|MIDIA]] (//Morfologia Italiana in Diacronia//, který dosahuje velikosti 7,5 mil. tokenů. Korpus CODIT není prozatím anotován, v budoucnu však počítáme s doplněním morfologického značkování a lemmatizace. +CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. Korpus je v ČNK hostován díky [[https://www.unimib.it/maria-silvia-micheli|Marii Silvii Micheli]], která ho sestavila. CODIT pokrývá celé období vývoje italštiny od 13. století do roku 1947, jeho struktura je analogická ke korpusu [[http://www.corpusmidia.unito.it/|MIDIA]] (//Morfologia Italiana in Diacronia//), který dosahuje velikosti 7,5 mil. tokenů. Korpus CODIT není prozatím anotován, v budoucnu však počítáme s doplněním morfologického značkování a lemmatizace. Korpus je rozdělen do 5 hlavních částí podle období, které pokrývají. Periodizace vychází z korpusu MIDIA a je založena na důležitých historických a literárních událostech:
-Korpus je rozdělen do 5 hlavních částí podle období, které pokrývají. Periodizace vychází z korpusu MIDIA a je založena na důležitých historických a literárních událostech:+
  
   - 13. století -- 1375: období končí Boccacciovou smrtí.   - 13. století -- 1375: období končí Boccacciovou smrtí.
   - 1376 -- 1532: období humanismu a renesance; končí rokem 1532, kdy bylo publikováno třetí vydání //Zuřivého Rolanda// Ludovica Ariosta.   - 1376 -- 1532: období humanismu a renesance; končí rokem 1532, kdy bylo publikováno třetí vydání //Zuřivého Rolanda// Ludovica Ariosta.
-  - 1533 -- 1691: období manýrismu a baroka; končí rokem 1691, kdy bylo publikováno třetí vydání //Vocabolaria// od Accademie della Crusca.+  - 1533 -- 1691: období manýrismu a baroka; končí rokem 1691, kdy Accademia della Crusca publikuje třetí vydání //Vocabolaria//.
   - 1692 -- 1840: období osvícenství a romantismu; končí rokem 1840, kdy bylo publikováno revidované vydání //Snoubenců// Alessandra Manzoniho.    - 1692 -- 1840: období osvícenství a romantismu; končí rokem 1840, kdy bylo publikováno revidované vydání //Snoubenců// Alessandra Manzoniho. 
   - 1841 -- 1947: období sjednocování Itálie do konce druhé světové války; končí zveřejněním italské ústavy v roce 1947.   - 1841 -- 1947: období sjednocování Itálie do konce druhé světové války; končí zveřejněním italské ústavy v roce 1947.
  
-Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je první částkterá neobsahuje odborné texty. Každý text byl do korpusu zařazen celý. +Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je nejstarší obdobív němž chybějí odborné texty. Všechny texty byly do korpusu zařazeny celé. Každé období je pokryto přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou toho nejstaršíhokteré je menší (4,5 mil. tokenů) kvůli obtížné dostupnosti textů. Struktura korpusu rozděleného do ti (téměř) srovnatelných částí umožňuje provádět empiricky založený diachronní výzkum italštiny.
-Každá část obsahuje přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou první částikterá je menší (4,5 mil. tokenů) kvůli obtížné dostupnosti textů. Struktura korpusu rozděleného na (téměř) srovnatelných částí umožňuje provádět diachronní empirický výzkum italštiny.+
  
 ^  ^  1  ^  2  ^  3  ^  4  ^  5  ^ ^  ^  1  ^  2  ^  3  ^  4  ^  5  ^
Řádek 24: Řádek 22:
 ^ scientifici|  0|  593,168|  716,098|  824,532|  742,856| ^ scientifici|  0|  593,168|  716,098|  824,532|  742,856|
 ^ teatro|  79,213|  478,787|  545,645|  541,389|  546,750| ^ teatro|  79,213|  478,787|  545,645|  541,389|  546,750|
-TOT|  4,511,873|  6,589,372|  7,496,501|  6,996,485|  7,502,574|+CELKEM|  4,511,873|  6,589,372|  7,496,501|  6,996,485|  7,502,574|
  
 **Tabulka 1**: Velikost jednotlivých částí korpusu CODIT **Tabulka 1**: Velikost jednotlivých částí korpusu CODIT