AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:diakorp [2015/12/18 01:53] – [Anotace textových typů] annazitovacnk:diakorp [2024/02/01 16:13] (aktuální) michalkren
Řádek 1: Řádek 1:
 +~~NOTOC~~
 ====== Korpus Diakorp ====== ====== Korpus Diakorp ======
-Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [pojmy:referencni|nereferenční]], první verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně).+Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [[pojmy:referencni|referenční]], průběžně rostoucí ve verzích. První verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). V současné době obsahuje Diakorp ve verzi 6 přes 3,4 mil. slov. 
 + 
 +<WRAP right 35%> 
 +^ <fs medium>Název</fs> ^^ <fs medium>DIAKORP</fs>
 +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  4 128 874 |   
 +^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] |  3 450 142 |   
 +^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  282 799 |   
 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] |  116 | 
 +^ Další informace ^ [[pojmy:referencni|Referenční]] |  ANO |   
 +^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |   
 +^ ::: ^ Aktuální verze |  6 | 
 +^ ::: ^ Rok zveřejnění |  2015 | 
 +</WRAP> 
  
 Diakorp vzhledem ke svému časovému záběru necílí na to, aby byl korpusem [[pojmy:reprezentativnost|reprezentativním]] a vyváženým. V rámci diachronních Diakorp vzhledem ke svému časovému záběru necílí na to, aby byl korpusem [[pojmy:reprezentativnost|reprezentativním]] a vyváženým. V rámci diachronních
Řádek 12: Řádek 26:
 {{:cnk:nove_slozeni_diakorpu.png?direct |}} {{:cnk:nove_slozeni_diakorpu.png?direct |}}
  
-== Změny oproti starší verzi == +=== Změny oproti starší verzi ==
-Vedle přírůstku dat (z 1,95 mil. na 3,mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku je namísto slovního popisu číselná hodnota, např. "1390±10" místo "konec 14. století").+ 
 +Vedle přírůstku dat (z 1,95 mil. na 3,mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku byl slovní popis nahrazen číselnou hodnotou, např. "1390±10" místo "konec 14. století").
  
 Změnil se charakter [[cnk:diakorp#znackovani|značek]] vnášených do textů editory tak, aby nebyly započítávány do celkového počtu pozic. Nový způsob, jak tyto značky použít při zadávání dotazu, popisují [[kurz:hledani_v_diachronnim_korpusu|Specifika vyhledávání v diachronním korpusu]].  Změnil se charakter [[cnk:diakorp#znackovani|značek]] vnášených do textů editory tak, aby nebyly započítávány do celkového počtu pozic. Nový způsob, jak tyto značky použít při zadávání dotazu, popisují [[kurz:hledani_v_diachronnim_korpusu|Specifika vyhledávání v diachronním korpusu]]. 
Řádek 58: Řádek 73:
 Obecnou zásadou je zachovávat bez úpravy ty jevy, které v daném kontextu s jistou pravděpodobností svědčí o dobové výslovnosti (jsou doloženy v jazykových příručkách).  Obecnou zásadou je zachovávat bez úpravy ty jevy, které v daném kontextu s jistou pravděpodobností svědčí o dobové výslovnosti (jsou doloženy v jazykových příručkách). 
  
-Pokud je originální text zapsán/vytištěn tak, že neumožňuje jednoznačnou fonologickou interpretaci (např. proto, že v něm - tak jako ve velké části staročeských textů - není označována kvantita, popř. že text byl přejat z kritické edice), a jeho transkripce tedy zahrnuje i celkovou rekonstrukci některých jeho fonologických rysů vyplývající nikoli z textu samého, ale především z dnešního stupně poznání staršího stavu jazyka, je vedle pracovního identifikačního názvu díla ([[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|id]]), který se objeví po kliknutí na [[kurz:zobrazeni_dotazu#jak_zobrazit_dostupne_metainformace|referenční údaj v pravé části konkordančního řádku]], uvedena značka **(R)**. Tato značka uživatele korpusu upozorňuje, že transkribovaná podoba příslušného textu je do značné míry rekonstruovaná ("normalizovaná"), a není tedy po fonologické stránce autentická.+Pokud je originální text zapsán/vytištěn tak, že neumožňuje jednoznačnou fonologickou interpretaci (např. proto, že v něm - tak jako ve velké části staročeských textů - není označována kvantita, popř. že text byl přejat z kritické edice), a jeho transkripce tedy zahrnuje i celkovou rekonstrukci některých jeho fonologických rysů vyplývající nikoli z textu samého, ale především z dnešního stupně poznání staršího stavu jazyka, je vedle pracovního identifikačního názvu díla ([[seznamy:strukturni_atributy_syn#strukturni_atributy_korpusu_syn2015_a_novejsich|id]]), který se objeví po kliknutí na [[kurz:zobrazeni_dotazu#jak_zobrazit_dostupne_metainformace|referenční údaj v pravé části konkordančního řádku]], uvedena značka **(R)**. Tato značka uživatele korpusu upozorňuje, že transkribovaná podoba příslušného textu je do značné míry rekonstruovaná ("normalizovaná"), a není tedy po fonologické stránce autentická.
  
 Pokud v rámci určitého textu a určitého slova kvantita samohlásek kolísá a přitom je délka i krátkost dobově obvyklá, nesjednocujeme podobu slova podle převažující varianty, ale ponecháváme obě podoby. Pokud v rámci určitého textu a určitého slova kvantita samohlásek kolísá a přitom je délka i krátkost dobově obvyklá, nesjednocujeme podobu slova podle převažující varianty, ale ponecháváme obě podoby.
Řádek 148: Řádek 163:
  
  
-**Textový typ** (''txtype'') slouží k podrobnějšímu třídění textů v rámci textové skupiny. Při jejich určování byl sledován dvojí cíl: podat informaci o textu (např. //list pastýřský//) a zároveň pomocí stejných nebo podobných názvů typů vytvářet další podskupiny textů (//povídka// - //povídky// (tj. cyklus, soubor) - //povídka didaktická//). Názvy typů byly v případě beletristických děl přebírány z literárněvědných příruček ((např. Opelík, Jiří, ed. et al. //Lexikon české literatury: osobnosti, díla, instituce//. 1. vyd. Praha: Academia, 1985-2008; Mocná, Dagmar a kol. //Encyklopedie literárních žánrů//. 1. vyd. Praha: Paseka, 2004.)) nebo vytvářeny z tradičních termínů. Vodítkem ke stanovení typu byly údaje v katalogu Národní knihovny nebo metainformace obsažené v samotných dílech (popisné názvy starších textů apod.).+**Textový typ** (''txtype'') slouží k podrobnějšímu třídění textů v rámci textové skupiny. Při určování typu byl sledován dvojí cíl: podat informaci o textu (např. //list pastýřský//) a zároveň pomocí stejných nebo podobných názvů typů vytvářet další podskupiny textů (//povídka// - //povídky// (tj. cyklus, soubor) - //povídka didaktická//). Názvy byly v případě beletristických děl přebírány z literárněvědných příruček ((např. Opelík, Jiří, ed. et al. //Lexikon české literatury: osobnosti, díla, instituce//. 1. vyd. Praha: Academia, 1985-2008; Mocná, Dagmar a kol. //Encyklopedie literárních žánrů//. 1. vyd. Praha: Paseka, 2004.)) nebo vytvářeny z tradičních termínů. Vodítkem ke stanovení typu byly dále údaje v katalogu Národní knihovny nebo metainformace obsažené v samotných dílech (v podtitulech apod.).
  
 Poznámky k některým typům: Poznámky k některým typům:
Řádek 176: Řádek 191:
  
 Kučera, K. – Řehořková, A. – Stluka, M.: //DIAKORP: Diachronní korpus, verze 6 z 18. 12. 2015//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz Kučera, K. – Řehořková, A. – Stluka, M.: //DIAKORP: Diachronní korpus, verze 6 z 18. 12. 2015//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz
 +
 +Kučera, K. (2014): Diachronní složka Českého národního korpusu a hranice možností korpusového výzkumu vývoje češtiny. //Naše řeč// 97 (4–5), 208–215. http://nase-rec.ujc.cas.cz/archiv.php?art=8339
 </WRAP> </WRAP>