Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:diakorp [2015/12/17 23:34] – annazitova | cnk:diakorp [2024/02/01 16:13] (aktuální) – michalkren |
---|
| ~~NOTOC~~ |
====== Korpus Diakorp ====== | ====== Korpus Diakorp ====== |
Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [pojmy:referencni|nereferenční]], první verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). | Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [[pojmy:referencni|referenční]], průběžně rostoucí ve verzích. První verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). V současné době obsahuje Diakorp ve verzi 6 přes 3,4 mil. slov. |
| |
| <WRAP right 35%> |
| ^ <fs medium>Název</fs> ^^ <fs medium>DIAKORP</fs> ^ |
| ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 4 128 874 | |
| ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 3 450 142 | |
| ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 282 799 | |
| ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 116 | |
| ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
| ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE | |
| ^ ::: ^ Aktuální verze | 6 | |
| ^ ::: ^ Rok zveřejnění | 2015 | |
| </WRAP> |
| |
Diakorp vzhledem ke svému časovému záběru necílí na to, aby byl korpusem [[pojmy:reprezentativnost|reprezentativním]] a vyváženým. V rámci diachronních | Diakorp vzhledem ke svému časovému záběru necílí na to, aby byl korpusem [[pojmy:reprezentativnost|reprezentativním]] a vyváženým. V rámci diachronních |
{{:cnk:nove_slozeni_diakorpu.png?direct |}} | {{:cnk:nove_slozeni_diakorpu.png?direct |}} |
| |
== Změny oproti starší verzi == | === Změny oproti starší verzi === |
Vedle přírůstku dat (z 1,95 mil. na 3,5 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku je namísto slovního popisu číselná hodnota, např. "1390±10" místo "konec 14. století"). | |
| Vedle přírůstku dat (z 1,95 mil. na 3,4 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku byl slovní popis nahrazen číselnou hodnotou, např. "1390±10" místo "konec 14. století"). |
| |
Změnil se charakter [[cnk:diakorp#znackovani|značek]] vnášených do textů editory tak, aby nebyly započítávány do celkového počtu pozic. Nový způsob, jak tyto značky použít při zadávání dotazu, popisují [[kurz:hledani_v_diachronnim_korpusu|Specifika vyhledávání v diachronním korpusu]]. | Změnil se charakter [[cnk:diakorp#znackovani|značek]] vnášených do textů editory tak, aby nebyly započítávány do celkového počtu pozic. Nový způsob, jak tyto značky použít při zadávání dotazu, popisují [[kurz:hledani_v_diachronnim_korpusu|Specifika vyhledávání v diachronním korpusu]]. |
Obecnou zásadou je zachovávat bez úpravy ty jevy, které v daném kontextu s jistou pravděpodobností svědčí o dobové výslovnosti (jsou doloženy v jazykových příručkách). | Obecnou zásadou je zachovávat bez úpravy ty jevy, které v daném kontextu s jistou pravděpodobností svědčí o dobové výslovnosti (jsou doloženy v jazykových příručkách). |
| |
Pokud je originální text zapsán/vytištěn tak, že neumožňuje jednoznačnou fonologickou interpretaci (např. proto, že v něm - tak jako ve velké části staročeských textů - není označována kvantita, popř. že text byl přejat z kritické edice), a jeho transkripce tedy zahrnuje i celkovou rekonstrukci některých jeho fonologických rysů vyplývající nikoli z textu samého, ale především z dnešního stupně poznání staršího stavu jazyka, je vedle pracovního identifikačního názvu díla ([[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|id]]), který se objeví po kliknutí na [[kurz:zobrazeni_dotazu#jak_zobrazit_dostupne_metainformace|referenční údaj v pravé části konkordančního řádku]], uvedena značka **(R)**. Tato značka uživatele korpusu upozorňuje, že transkribovaná podoba příslušného textu je do značné míry rekonstruovaná ("normalizovaná"), a není tedy po fonologické stránce autentická. | Pokud je originální text zapsán/vytištěn tak, že neumožňuje jednoznačnou fonologickou interpretaci (např. proto, že v něm - tak jako ve velké části staročeských textů - není označována kvantita, popř. že text byl přejat z kritické edice), a jeho transkripce tedy zahrnuje i celkovou rekonstrukci některých jeho fonologických rysů vyplývající nikoli z textu samého, ale především z dnešního stupně poznání staršího stavu jazyka, je vedle pracovního identifikačního názvu díla ([[seznamy:strukturni_atributy_syn#strukturni_atributy_korpusu_syn2015_a_novejsich|id]]), který se objeví po kliknutí na [[kurz:zobrazeni_dotazu#jak_zobrazit_dostupne_metainformace|referenční údaj v pravé části konkordančního řádku]], uvedena značka **(R)**. Tato značka uživatele korpusu upozorňuje, že transkribovaná podoba příslušného textu je do značné míry rekonstruovaná ("normalizovaná"), a není tedy po fonologické stránce autentická. |
| |
Pokud v rámci určitého textu a určitého slova kvantita samohlásek kolísá a přitom je délka i krátkost dobově obvyklá, nesjednocujeme podobu slova podle převažující varianty, ale ponecháváme obě podoby. | Pokud v rámci určitého textu a určitého slova kvantita samohlásek kolísá a přitom je délka i krátkost dobově obvyklá, nesjednocujeme podobu slova podle převažující varianty, ale ponecháváme obě podoby. |
===== Anotace textových typů ===== | ===== Anotace textových typů ===== |
| |
V Diakorpu verze 6 byla zavedena dvouúrovňová klasifikace textů. Označení úrovní je stejné jako v korpusech řady SYN (1. [[pojmy:txtype_group|txtype_group]], textová skupina; 2. [[pojmy:txtype|txtype]], textový typ), avšak vymezení jednotlivých skupin a typů (tj. hodnoty strukturních atributů ''txtype_group'' a ''txtype'') se liší. | V Diakorpu verze 6 byla zavedena dvouúrovňová klasifikace textů. Označení úrovní je stejné jako v korpusech řady SYN (1. [[pojmy:txtype_group|txtype_group]], textová skupina; 2. [[pojmy:txtype|txtype]], textový typ), avšak vymezení jednotlivých skupin a typů (tj. [[seznamy:txtype|hodnoty]] strukturních atributů ''txtype_group'' a ''txtype'') se liší. |
| |
**Klasifikace textů v korpusu Diakorp verze 6** | **Klasifikace textů v korpusu Diakorp verze 6** |
| odborná praktická | zvěrolékařství, zemědělství... | | | odborná praktická | zvěrolékařství, zemědělství... | |
| periodikum | časopis, noviny | | | periodikum | časopis, noviny | |
| názory | X (polemika, agitace, návrh apod.) | | | názory | X (propagace, agitace, polemika apod.) | |
| reflexe | X (esej, rozjímání apod.) | | | reflexe | X (esej, rozjímání apod.) | |
| řeč | modlitby, bohoslužba... (slavnostní řeč apod.) | | | řeč | modlitby, bohoslužba... (slavnostní řeč apod.) | |
| každodenní | dopis... (zápisky, paměti apod.) | | | každodenní | deník... (dopis, paměti apod.) | |
| mix | X | | | mix | X | |
| |
* Beletrii odpovídají kategorie //drama//, //verše// a //próza//. Nejméně typickým představitelem je vzhledem k žánrovému synkretismu ve starší české literatuře //próza//: do této kategorie byly zařazeny např. i kroniky, staré historie a životopisy (svatých, papežů), a to pod souhrnným označením (''txtype'') //vyprávění historické//. | * Beletrii odpovídají kategorie //drama//, //verše// a //próza//. Nejméně typickým představitelem je vzhledem k žánrovému synkretismu ve starší české literatuře //próza//: do této kategorie byly zařazeny např. i kroniky, staré historie a životopisy (svatých, papežů), a to pod souhrnným označením (''txtype'') //vyprávění historické//. |
* Odborná (oborová) literatura byla rozdělena na skupinu //odborná teoretická// a //odborná praktická//. Prototypem prakticky orientovaných textů je návod, mezním případem jsou učebnice a výchovné spisy. Základním distinktivním rysem oproti teoretickým textům je přítomnost apelativní funkce (Bühler), příjemce má podle těchto textů řídit své chování. | * Odborná (oborová) literatura byla rozdělena na skupinu //odborná teoretická// a //odborná praktická//. Prototypem prakticky orientovaných textů je návod, mezním případem jsou učebnice a výchovné spisy. Základním distinktivním rysem oproti teoretickým textům je přítomnost apelativní funkce (Bühler), příjemce má podle těchto textů řídit své chování. |
* Publicistice v synchronních korpusech odpovídá kategorie //periodikum//. Z hlediska stylistiky, vymezující publicistický styl na základě persvazivní funkce textů, ((např. Čechová, M. - Krčmová, M. - Minářová, E.: //Současná stylistika//. Praha: NLN, 2008.)) pak vyhovuje i kategorie //názory//. | * Publicistice v synchronních korpusech odpovídá kategorie //periodikum//. |
| |
| Pomezní a speciální kategorie: |
| * //Názory// - texty na pomezí odborné literatury a publicistiky ve stylistickém smyslu (vymezené persvazivní funkcí).((např. Čechová, M. - Krčmová, M. - Minářová, E.: //Současná stylistika//. Praha: NLN, 2008.)) Na rozdíl od odborných textů jsou skutečnosti otevřeně hodnoceny z jednoho stanoviska. |
| * //Reflexe// - přechodový typ mezi //odbornou teoretickou// literaturou a //názory//. Úvahy vedené ze subjektivního hlediska, ale nikoli s primárním cílem někoho přesvědčovat; filosofické texty, které ještě nelze zařadit k určité odborné disciplíně. |
| * //Řeč// - kategorie předem připravených (vzorových) nebo následně zapsaných proslovů ("written to be spoken"). Specifické je zařazení modliteb - důvodem je jednak hlasová (vnější i vnitřní) realizace, jednak formální různorodost těchto textů. |
| * //Každodenní// - texty se základní dorozumívací funkcí. Často se vztahují k plynutí času, proto je kategorie určena jak pro soukromé dopisy a běžné poznámky, tak pro pravidelné chronologické záznamy (v letopisech apod.), které nemusejí mít nutně soukromý charakter. |
| |
| |
| **Textový typ** (''txtype'') slouží k podrobnějšímu třídění textů v rámci textové skupiny. Při určování typu byl sledován dvojí cíl: podat informaci o textu (např. //list pastýřský//) a zároveň pomocí stejných nebo podobných názvů typů vytvářet další podskupiny textů (//povídka// - //povídky// (tj. cyklus, soubor) - //povídka didaktická//). Názvy byly v případě beletristických děl přebírány z literárněvědných příruček ((např. Opelík, Jiří, ed. et al. //Lexikon české literatury: osobnosti, díla, instituce//. 1. vyd. Praha: Academia, 1985-2008; Mocná, Dagmar a kol. //Encyklopedie literárních žánrů//. 1. vyd. Praha: Paseka, 2004.)) nebo vytvářeny z tradičních termínů. Vodítkem ke stanovení typu byly dále údaje v katalogu Národní knihovny nebo metainformace obsažené v samotných dílech (v podtitulech apod.). |
| |
| Poznámky k některým typům: |
| * //Vyprávění historické// - sdružuje kroniky a blízký žánr historie, životopisy, pověsti apod. (název vznikl analogií k označení "historický román"). |
| * //Historie// - v rámci teoreticky odborné literatury není rozlišen předmět historického popisu (právo, dějiny Moravy apod.), většinou je naznačen již titulem. |
| * //X// - není blíže určen. |
| |
Pomezní a speciální kategorie | |
* p | |
| |
| |
| |
vodítka pro určení txtype - název, lexikon... | |
| |
| |
| |
| |
vystihnout na textech to podstatné | |
| |
| |
| |
Kučera, K. – Řehořková, A. – Stluka, M.: //DIAKORP: Diachronní korpus, verze 6 z 18. 12. 2015//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz | Kučera, K. – Řehořková, A. – Stluka, M.: //DIAKORP: Diachronní korpus, verze 6 z 18. 12. 2015//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz |
| |
| Kučera, K. (2014): Diachronní složka Českého národního korpusu a hranice možností korpusového výzkumu vývoje češtiny. //Naše řeč// 97 (4–5), 208–215. http://nase-rec.ujc.cas.cz/archiv.php?art=8339 |
</WRAP> | </WRAP> |
| |