Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:diakorp [2015/12/18 14:37] – vaclavcvrcek | cnk:diakorp [2021/11/29 15:17] – vaclavcvrcek |
---|
Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [[pojmy:referencni|referenční]], průběžně rostoucí ve verzích. První verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). V současné době obsahuje Diakorp ve verzi 6 přes 3,4 mil. slov. | Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [[pojmy:referencni|referenční]], průběžně rostoucí ve verzích. První verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). V současné době obsahuje Diakorp ve verzi 6 přes 3,4 mil. slov. |
| |
<WRAP right 37%> | <WRAP right 35%> |
^ <fs medium>Název</fs> ^^ <fs medium>DIAKORP</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>DIAKORP</fs> ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 4 128 874 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 4 128 874 | |
- //Dia// - připravovaný korpus zaměřený na pokrývání jednotlivých století (počínaje 19. st.) širokým spektrem textových typů, bude obsahovat ručně zkorigované a [[pojmy:lemma|lemmatizované]] texty. | - //Dia// - připravovaný korpus zaměřený na pokrývání jednotlivých století (počínaje 19. st.) širokým spektrem textových typů, bude obsahovat ručně zkorigované a [[pojmy:lemma|lemmatizované]] texty. |
| |
**Složení Diakorpu verze 6 (zveřejněna 2015) v % [[pojmy:pozice|pozic]] na časové období** | === Složení Diakorpu verze 6 (zveřejněna 2015) v % [[pojmy:pozice|pozic]] na časové období === |
| |
{{:cnk:nove_slozeni_diakorpu.png?direct |}} | {{:cnk:nove_slozeni_diakorpu.png?direct |}} |
| |
== Změny oproti starší verzi == | === Změny oproti starší verzi === |
Vedle přírůstku dat (z 1,95 mil. na 3,4 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku byl slovní popis nahrazen číselnou hodnotou, např. "1390±10" místo "konec 14. století"). | Vedle přírůstku dat (z 1,95 mil. na 3,4 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku byl slovní popis nahrazen číselnou hodnotou, např. "1390±10" místo "konec 14. století"). |
| |