AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:codit [2021/03/24 23:07] – [Korpus CODIT] michalkrencnk:codit [2021/03/29 14:16] (aktuální) – [Korpus CODIT] michalkren
Řádek 5: Řádek 5:
 {{ :en:cnk:codit-logo.png?direct&180|}} {{ :en:cnk:codit-logo.png?direct&180|}}
  
-CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. Pokrývá celé období vývoje italštiny od 13. století do roku 1947. Struktura korpusu CODIT je analogická ke korpusu [[http://www.corpusmidia.unito.it/|MIDIA]] (//Morfologia Italiana in Diacronia//), který dosahuje velikosti 7,5 mil. tokenů. Korpus CODIT není prozatím anotován, v budoucnu však počítáme s doplněním morfologického značkování a lemmatizace. +CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. Korpus je v ČNK hostován díky [[https://www.unimib.it/maria-silvia-micheli|Marii Silvii Micheli]], která ho sestavila. CODIT pokrývá celé období vývoje italštiny od 13. století do roku 1947, jeho struktura je analogická ke korpusu [[http://www.corpusmidia.unito.it/|MIDIA]] (//Morfologia Italiana in Diacronia//), který dosahuje velikosti 7,5 mil. tokenů. Korpus CODIT není prozatím anotován, v budoucnu však počítáme s doplněním morfologického značkování a lemmatizace. Korpus je rozdělen do 5 hlavních částí podle období, které pokrývají. Periodizace vychází z korpusu MIDIA a je založena na důležitých historických a literárních událostech:
-Korpus je rozdělen do 5 hlavních částí podle období, které pokrývají. Periodizace vychází z korpusu MIDIA a je založena na důležitých historických a literárních událostech:+
  
   - 13. století -- 1375: období končí Boccacciovou smrtí.   - 13. století -- 1375: období končí Boccacciovou smrtí.
Řádek 14: Řádek 13:
   - 1841 -- 1947: období sjednocování Itálie do konce druhé světové války; končí zveřejněním italské ústavy v roce 1947.   - 1841 -- 1947: období sjednocování Itálie do konce druhé světové války; končí zveřejněním italské ústavy v roce 1947.
  
-Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je nejstarší období, v němž chybějí odborné texty. Všechny texty byly do korpusu zařazeny celé. +Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je nejstarší období, v němž chybějí odborné texty. Všechny texty byly do korpusu zařazeny celé. Každé období je pokryto přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou toho nejstaršího, které je menší (4,5 mil. tokenů) kvůli obtížné dostupnosti textů. Struktura korpusu rozděleného do pěti (téměř) srovnatelných částí umožňuje provádět empiricky založený diachronní výzkum italštiny.
-Každé období je pokryto přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou toho nejstaršího, které je menší (4,5 mil. tokenů) kvůli obtížné dostupnosti textů. Struktura korpusu rozděleného do pěti (téměř) srovnatelných částí umožňuje provádět empiricky založený diachronní výzkum italštiny.+
  
 ^  ^  1  ^  2  ^  3  ^  4  ^  5  ^ ^  ^  1  ^  2  ^  3  ^  4  ^  5  ^
Řádek 24: Řádek 22:
 ^ scientifici|  0|  593,168|  716,098|  824,532|  742,856| ^ scientifici|  0|  593,168|  716,098|  824,532|  742,856|
 ^ teatro|  79,213|  478,787|  545,645|  541,389|  546,750| ^ teatro|  79,213|  478,787|  545,645|  541,389|  546,750|
-TOT|  4,511,873|  6,589,372|  7,496,501|  6,996,485|  7,502,574|+CELKEM|  4,511,873|  6,589,372|  7,496,501|  6,996,485|  7,502,574|
  
 **Tabulka 1**: Velikost jednotlivých částí korpusu CODIT **Tabulka 1**: Velikost jednotlivých částí korpusu CODIT