Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:codit [2021/03/24 23:33] – [Korpus CODIT] michalkren | cnk:codit [2021/03/29 14:16] (aktuální) – [Korpus CODIT] michalkren | ||
---|---|---|---|
Řádek 5: | Řádek 5: | ||
{{ : | {{ : | ||
- | CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. | + | CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. |
- | Korpus je rozdělen do 5 hlavních částí podle období, které pokrývají. Periodizace vychází z korpusu MIDIA a je založena na důležitých historických a literárních událostech: | + | |
- 13. století -- 1375: období končí Boccacciovou smrtí. | - 13. století -- 1375: období končí Boccacciovou smrtí. | ||
Řádek 14: | Řádek 13: | ||
- 1841 -- 1947: období sjednocování Itálie do konce druhé světové války; končí zveřejněním italské ústavy v roce 1947. | - 1841 -- 1947: období sjednocování Itálie do konce druhé světové války; končí zveřejněním italské ústavy v roce 1947. | ||
- | Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je nejstarší období, v němž chybějí odborné texty. Všechny texty byly do korpusu zařazeny celé. | + | Každá část korpusu CODIT obsahuje 6 hlavních typů textu: eseje, prózu, poezii, dopisy, odborné texty a divadelní hry. Jedinou výjimkou je nejstarší období, v němž chybějí odborné texty. Všechny texty byly do korpusu zařazeny celé. Každé období je pokryto přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou toho nejstaršího, |
- | Každé období je pokryto přibližně 7 mil. tokenů (viz Tabulka 1), opět s výjimkou toho nejstaršího, | + | |
^ ^ 1 ^ 2 ^ 3 ^ 4 ^ 5 ^ | ^ ^ 1 ^ 2 ^ 3 ^ 4 ^ 5 ^ |