AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:diakorp [2015/12/18 14:37] vaclavcvrcekcnk:diakorp [2022/08/29 18:07] – BatchEdit: pojmy>seznamy dokumenty cvrcek
Řádek 3: Řádek 3:
 Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [[pojmy:referencni|referenční]], průběžně rostoucí ve verzích. První verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). V současné době obsahuje Diakorp ve verzi 6 přes 3,4 mil. slov. Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [[pojmy:referencni|referenční]], průběžně rostoucí ve verzích. První verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). V současné době obsahuje Diakorp ve verzi 6 přes 3,4 mil. slov.
  
-<WRAP right 37%>+<WRAP right 35%>
 ^ <fs medium>Název</fs> ^^ <fs medium>DIAKORP</fs> ^ ^ <fs medium>Název</fs> ^^ <fs medium>DIAKORP</fs> ^
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  4 128 874 |   ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  4 128 874 |  
 ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  3 450 142 |   ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  3 450 142 |  
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  282 799 |   ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  282 799 |  
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  116 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] |  116 |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |  
 ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |   ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |  
Řádek 26: Řádek 26:
 {{:cnk:nove_slozeni_diakorpu.png?direct |}} {{:cnk:nove_slozeni_diakorpu.png?direct |}}
  
-== Změny oproti starší verzi ==+=== Změny oproti starší verzi ==
 Vedle přírůstku dat (z 1,95 mil. na 3,4 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku byl slovní popis nahrazen číselnou hodnotou, např. "1390±10" místo "konec 14. století"). Vedle přírůstku dat (z 1,95 mil. na 3,4 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku byl slovní popis nahrazen číselnou hodnotou, např. "1390±10" místo "konec 14. století").