Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:diakorp [2015/12/18 01:51] – [Anotace textových typů] annazitova | cnk:diakorp [2022/08/29 18:07] – BatchEdit: pojmy>seznamy dokumenty cvrcek |
---|
| ~~NOTOC~~ |
====== Korpus Diakorp ====== | ====== Korpus Diakorp ====== |
Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [pojmy:referencni|nereferenční]], první verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). | Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [[pojmy:referencni|referenční]], průběžně rostoucí ve verzích. První verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). V současné době obsahuje Diakorp ve verzi 6 přes 3,4 mil. slov. |
| |
| <WRAP right 35%> |
| ^ <fs medium>Název</fs> ^^ <fs medium>DIAKORP</fs> ^ |
| ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 4 128 874 | |
| ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 3 450 142 | |
| ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 282 799 | |
| ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 116 | |
| ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
| ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE | |
| ^ ::: ^ Aktuální verze | 6 | |
| ^ ::: ^ Rok zveřejnění | 2015 | |
| </WRAP> |
| |
Diakorp vzhledem ke svému časovému záběru necílí na to, aby byl korpusem [[pojmy:reprezentativnost|reprezentativním]] a vyváženým. V rámci diachronních | Diakorp vzhledem ke svému časovému záběru necílí na to, aby byl korpusem [[pojmy:reprezentativnost|reprezentativním]] a vyváženým. V rámci diachronních |
{{:cnk:nove_slozeni_diakorpu.png?direct |}} | {{:cnk:nove_slozeni_diakorpu.png?direct |}} |
| |
== Změny oproti starší verzi == | === Změny oproti starší verzi === |
Vedle přírůstku dat (z 1,95 mil. na 3,5 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku je namísto slovního popisu číselná hodnota, např. "1390±10" místo "konec 14. století"). | |
| Vedle přírůstku dat (z 1,95 mil. na 3,4 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku byl slovní popis nahrazen číselnou hodnotou, např. "1390±10" místo "konec 14. století"). |
| |
Změnil se charakter [[cnk:diakorp#znackovani|značek]] vnášených do textů editory tak, aby nebyly započítávány do celkového počtu pozic. Nový způsob, jak tyto značky použít při zadávání dotazu, popisují [[kurz:hledani_v_diachronnim_korpusu|Specifika vyhledávání v diachronním korpusu]]. | Změnil se charakter [[cnk:diakorp#znackovani|značek]] vnášených do textů editory tak, aby nebyly započítávány do celkového počtu pozic. Nový způsob, jak tyto značky použít při zadávání dotazu, popisují [[kurz:hledani_v_diachronnim_korpusu|Specifika vyhledávání v diachronním korpusu]]. |
| |
| |
**Textový typ** (''txtype'') slouží k podrobnějšímu třídění textů v rámci textové skupiny. Při jejich určování byl sledován dvojí cíl: podat informaci o textu (např. //list pastýřský//) a zároveň pomocí stejných nebo podobných názvů typů vytvářet další podskupiny textů (//povídka// - //povídky// (cyklus, soubor) - //povídka didaktická//). Názvy typů byly v případě beletristických děl přebírány z literárněvědných příruček ((např. Opelík, Jiří, ed. et al. //Lexikon české literatury: osobnosti, díla, instituce//. 1. vyd. Praha: Academia, 1985-2008; Mocná, Dagmar a kol. //Encyklopedie literárních žánrů//. 1. vyd. Praha: Paseka, 2004.)) nebo vytvářeny z tradičních termínů. Vodítkem ke stanovení typu byly i údaje v katalogu Národní knihovny nebo metainformace obsažené v samotných dílech (popisné názvy starších textů apod.). | **Textový typ** (''txtype'') slouží k podrobnějšímu třídění textů v rámci textové skupiny. Při určování typu byl sledován dvojí cíl: podat informaci o textu (např. //list pastýřský//) a zároveň pomocí stejných nebo podobných názvů typů vytvářet další podskupiny textů (//povídka// - //povídky// (tj. cyklus, soubor) - //povídka didaktická//). Názvy byly v případě beletristických děl přebírány z literárněvědných příruček ((např. Opelík, Jiří, ed. et al. //Lexikon české literatury: osobnosti, díla, instituce//. 1. vyd. Praha: Academia, 1985-2008; Mocná, Dagmar a kol. //Encyklopedie literárních žánrů//. 1. vyd. Praha: Paseka, 2004.)) nebo vytvářeny z tradičních termínů. Vodítkem ke stanovení typu byly dále údaje v katalogu Národní knihovny nebo metainformace obsažené v samotných dílech (v podtitulech apod.). |
| |
Poznámky k některým typům: | Poznámky k některým typům: |