Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:diakorp [2015/12/17 17:02] – annazitova | cnk:diakorp [2024/02/01 16:13] (aktuální) – michalkren |
---|
| ~~NOTOC~~ |
====== Korpus Diakorp ====== | ====== Korpus Diakorp ====== |
Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [pojmy:referencni|nereferenční]], první verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). | Korpus Diakorp reprezentuje [[pojmy:diachronni|diachronní]] složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus [[pojmy:referencni|referenční]], průběžně rostoucí ve verzích. První verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). V současné době obsahuje Diakorp ve verzi 6 přes 3,4 mil. slov. |
| |
| <WRAP right 35%> |
| ^ <fs medium>Název</fs> ^^ <fs medium>DIAKORP</fs> ^ |
| ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 4 128 874 | |
| ^ ::: ^ Počet [[pojmy:token|pozic (tokenů) bez interpunkce ]] | 3 450 142 | |
| ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 282 799 | |
| ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_syn|dokumentů]] | 116 | |
| ^ Další informace ^ [[pojmy:referencni|Referenční]] | ANO | |
| ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE | |
| ^ ::: ^ Aktuální verze | 6 | |
| ^ ::: ^ Rok zveřejnění | 2015 | |
| </WRAP> |
| |
Diakorp vzhledem ke svému časovému záběru necílí na to, aby byl korpusem [[pojmy:reprezentativnost|reprezentativním]] a vyváženým. V rámci diachronních | Diakorp vzhledem ke svému časovému záběru necílí na to, aby byl korpusem [[pojmy:reprezentativnost|reprezentativním]] a vyváženým. V rámci diachronních |
{{:cnk:nove_slozeni_diakorpu.png?direct |}} | {{:cnk:nove_slozeni_diakorpu.png?direct |}} |
| |
== Změny oproti starší verzi == | === Změny oproti starší verzi === |
Vedle přírůstku dat (z 1,95 mil. na 3,5 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku je namísto slovního popisu číselná hodnota, např. "1390±10" místo "konec 14. století"). | |
| Vedle přírůstku dat (z 1,95 mil. na 3,4 mil. slovních tvarů) přibyla i klasifikace textů podle [[cnk:diakorp#anotace_textovych_typu|textových typů]]. Dále byl sjednocen formát datace a zavedeny toleranční intervaly (v případě nejasného roku vzniku byl slovní popis nahrazen číselnou hodnotou, např. "1390±10" místo "konec 14. století"). |
| |
Změnil se charakter [[cnk:diakorp#znackovani|značek]] vnášených do textů editory tak, aby nebyly započítávány do celkového počtu pozic. Nový způsob, jak tyto značky použít při zadávání dotazu, popisují [[kurz:hledani_v_diachronnim_korpusu|Specifika vyhledávání v diachronním korpusu]]. | Změnil se charakter [[cnk:diakorp#znackovani|značek]] vnášených do textů editory tak, aby nebyly započítávány do celkového počtu pozic. Nový způsob, jak tyto značky použít při zadávání dotazu, popisují [[kurz:hledani_v_diachronnim_korpusu|Specifika vyhledávání v diachronním korpusu]]. |
Obecnou zásadou je zachovávat bez úpravy ty jevy, které v daném kontextu s jistou pravděpodobností svědčí o dobové výslovnosti (jsou doloženy v jazykových příručkách). | Obecnou zásadou je zachovávat bez úpravy ty jevy, které v daném kontextu s jistou pravděpodobností svědčí o dobové výslovnosti (jsou doloženy v jazykových příručkách). |
| |
Pokud je originální text zapsán/vytištěn tak, že neumožňuje jednoznačnou fonologickou interpretaci (např. proto, že v něm - tak jako ve velké části staročeských textů - není označována kvantita, popř. že text byl přejat z kritické edice), a jeho transkripce tedy zahrnuje i celkovou rekonstrukci některých jeho fonologických rysů vyplývající nikoli z textu samého, ale především z dnešního stupně poznání staršího stavu jazyka, je vedle pracovního identifikačního názvu díla ([[pojmy:atributy_strukturni#strukturni_atributy_atributy_strukturnich_jednotek|id]]), který se objeví po kliknutí na [[kurz:zobrazeni_dotazu#jak_zobrazit_dostupne_metainformace|referenční údaj v pravé části konkordančního řádku]], uvedena značka **(R)**. Tato značka uživatele korpusu upozorňuje, že transkribovaná podoba příslušného textu je do značné míry rekonstruovaná ("normalizovaná"), a není tedy po fonologické stránce autentická. | Pokud je originální text zapsán/vytištěn tak, že neumožňuje jednoznačnou fonologickou interpretaci (např. proto, že v něm - tak jako ve velké části staročeských textů - není označována kvantita, popř. že text byl přejat z kritické edice), a jeho transkripce tedy zahrnuje i celkovou rekonstrukci některých jeho fonologických rysů vyplývající nikoli z textu samého, ale především z dnešního stupně poznání staršího stavu jazyka, je vedle pracovního identifikačního názvu díla ([[seznamy:strukturni_atributy_syn#strukturni_atributy_korpusu_syn2015_a_novejsich|id]]), který se objeví po kliknutí na [[kurz:zobrazeni_dotazu#jak_zobrazit_dostupne_metainformace|referenční údaj v pravé části konkordančního řádku]], uvedena značka **(R)**. Tato značka uživatele korpusu upozorňuje, že transkribovaná podoba příslušného textu je do značné míry rekonstruovaná ("normalizovaná"), a není tedy po fonologické stránce autentická. |
| |
Pokud v rámci určitého textu a určitého slova kvantita samohlásek kolísá a přitom je délka i krátkost dobově obvyklá, nesjednocujeme podobu slova podle převažující varianty, ale ponecháváme obě podoby. | Pokud v rámci určitého textu a určitého slova kvantita samohlásek kolísá a přitom je délka i krátkost dobově obvyklá, nesjednocujeme podobu slova podle převažující varianty, ale ponecháváme obě podoby. |
===== Anotace textových typů ===== | ===== Anotace textových typů ===== |
| |
V Diakorpu verze 6 byla zavedena dvouúrovňová klasifikace textů. Označení úrovní je stejné jako v korpusech řady SYN (1. [[pojmy:txtype_group|txtype_group]], textová skupina; 2. [[pojmy:txtype|txtype]], textový typ), avšak vymezení jednotlivých skupin a typů (tj. hodnoty strukturních atributů ''txtype_group'' a ''txtype'') se liší. | V Diakorpu verze 6 byla zavedena dvouúrovňová klasifikace textů. Označení úrovní je stejné jako v korpusech řady SYN (1. [[pojmy:txtype_group|txtype_group]], textová skupina; 2. [[pojmy:txtype|txtype]], textový typ), avšak vymezení jednotlivých skupin a typů (tj. [[seznamy:txtype|hodnoty]] strukturních atributů ''txtype_group'' a ''txtype'') se liší. |
| |
**Klasifikace textů v korpusu Diakorp verze 6** | **Klasifikace textů v korpusu Diakorp verze 6** |
V závorkách jsou uvedeny typy textů, které zatím buď nejsou v korpusu zastoupeny, nebo nejsou určeny (X). | V závorkách jsou uvedeny typy textů, které zatím buď nejsou v korpusu zastoupeny, nebo nejsou určeny (X). |
| |
^ txtype_group ^ txtype ^ ekvivalenty ^ | ^ txtype_group ^ txtype ^ |
| próza | povídka, román, cestopis... | beletrie | | | próza | povídka, román, cestopis... | |
| verše | písně duchovní... | beletrie | | | verše | písně duchovní... | |
| drama | tragédie, komedie ve verších... | beletrie | | | drama | tragédie, komedie ve verších... | |
| odborná teoretická | chemie, historie... | odborná | | | odborná teoretická | chemie, historie... | |
| odborná praktická | zvěrolékařství, zemědělství... | odborná | | | odborná praktická | zvěrolékařství, zemědělství... | |
| periodikum | časopis, noviny | publicistika | | | periodikum | časopis, noviny | |
| každodenní | dopis... (zápisky, paměti apod.) | jiné | | | názory | X (propagace, agitace, polemika apod.) | |
| řeč | modlitby, bohoslužba... (slavnostní řeč apod.) | jiné | | | reflexe | X (esej, rozjímání apod.) | |
| názory | X (polemika, agitace, návrh apod.) | publicistika/odborná | | | řeč | modlitby, bohoslužba... (slavnostní řeč apod.) | |
| reflexe | X (esej, rozjímání apod.) | odborná/beletrie | | | každodenní | deník... (dopis, paměti apod.) | |
| mix | X | jiné | | | mix | X | |
| |
| |
| Cílem klasifikace je pomoci uživateli zorientovat se v datech. Voleny proto byly takové textové třídy, které jsou pokud možno obecně srozumitelné, a to i za cenu jisté nesystematičnosti v třídění. Na úrovni //textové skupiny// i //textového typu// jsou využita různá kritéria (literární druhy, registry, témata...), aby při daném rozsahu korpusu nenarůstala složitost metadat. Třídění je založeno na textech, které jsou obsaženy v současné verzi korpusu. Konflikty, které se v budoucnu očekávají, budou řešeny pragmaticky (např. odborný časopis bude zařazen do skupiny "odborná teoretická" nebo "odborná praktická", neboť je to z hlediska předpokládaného lingvistického výzkumu podstatnější než periodicita vydávání; analogicky nyní spadá "časopis pro zábavu a poučení" pod skupinu "periodikum", a nikoli "mix", protože označení formy má větší výpovědní hodnotu atd.). |
| |
| **Textová skupina** (''txtype_group'') představuje vyšší úroveň obecnosti, jednotlivé kategorie byly navrženy tak, aby do nich bylo možné zařadit většinu textů, které budou do korpusu přibývat. Vycházejí ze základního rozdělení veřejných psaných textů na beletrii, odbornou (oborovou) literaturu a publicistiku, nové kategorie byly přidány pro přechodové a speciální typy textů. |
| * Beletrii odpovídají kategorie //drama//, //verše// a //próza//. Nejméně typickým představitelem je vzhledem k žánrovému synkretismu ve starší české literatuře //próza//: do této kategorie byly zařazeny např. i kroniky, staré historie a životopisy (svatých, papežů), a to pod souhrnným označením (''txtype'') //vyprávění historické//. |
| * Odborná (oborová) literatura byla rozdělena na skupinu //odborná teoretická// a //odborná praktická//. Prototypem prakticky orientovaných textů je návod, mezním případem jsou učebnice a výchovné spisy. Základním distinktivním rysem oproti teoretickým textům je přítomnost apelativní funkce (Bühler), příjemce má podle těchto textů řídit své chování. |
| * Publicistice v synchronních korpusech odpovídá kategorie //periodikum//. |
| |
| Pomezní a speciální kategorie: |
| * //Názory// - texty na pomezí odborné literatury a publicistiky ve stylistickém smyslu (vymezené persvazivní funkcí).((např. Čechová, M. - Krčmová, M. - Minářová, E.: //Současná stylistika//. Praha: NLN, 2008.)) Na rozdíl od odborných textů jsou skutečnosti otevřeně hodnoceny z jednoho stanoviska. |
| * //Reflexe// - přechodový typ mezi //odbornou teoretickou// literaturou a //názory//. Úvahy vedené ze subjektivního hlediska, ale nikoli s primárním cílem někoho přesvědčovat; filosofické texty, které ještě nelze zařadit k určité odborné disciplíně. |
| * //Řeč// - kategorie předem připravených (vzorových) nebo následně zapsaných proslovů ("written to be spoken"). Specifické je zařazení modliteb - důvodem je jednak hlasová (vnější i vnitřní) realizace, jednak formální různorodost těchto textů. |
| * //Každodenní// - texty se základní dorozumívací funkcí. Často se vztahují k plynutí času, proto je kategorie určena jak pro soukromé dopisy a běžné poznámky, tak pro pravidelné chronologické záznamy (v letopisech apod.), které nemusejí mít nutně soukromý charakter. |
| |
| |
| **Textový typ** (''txtype'') slouží k podrobnějšímu třídění textů v rámci textové skupiny. Při určování typu byl sledován dvojí cíl: podat informaci o textu (např. //list pastýřský//) a zároveň pomocí stejných nebo podobných názvů typů vytvářet další podskupiny textů (//povídka// - //povídky// (tj. cyklus, soubor) - //povídka didaktická//). Názvy byly v případě beletristických děl přebírány z literárněvědných příruček ((např. Opelík, Jiří, ed. et al. //Lexikon české literatury: osobnosti, díla, instituce//. 1. vyd. Praha: Academia, 1985-2008; Mocná, Dagmar a kol. //Encyklopedie literárních žánrů//. 1. vyd. Praha: Paseka, 2004.)) nebo vytvářeny z tradičních termínů. Vodítkem ke stanovení typu byly dále údaje v katalogu Národní knihovny nebo metainformace obsažené v samotných dílech (v podtitulech apod.). |
| |
| Poznámky k některým typům: |
| * //Vyprávění historické// - sdružuje kroniky a blízký žánr historie, životopisy, pověsti apod. (název vznikl analogií k označení "historický román"). |
| * //Historie// - v rámci teoreticky odborné literatury není rozlišen předmět historického popisu (právo, dějiny Moravy apod.), většinou je naznačen již titulem. |
| * //X// - není blíže určen. |
| |
| |
| |
| |
Cílem klasifikace je pomoci uživateli zorientovat se v datech. Voleny proto byly takové textové třídy, které jsou pokud možno obecně srozumitelné, a to i za cenu jisté nesystematičnosti v třídění. Na úrovni //textové skupiny// i //textového typu// jsou využita různá kritéria (literární druhy, registry, témata...), aby při daném rozsahu korpusu nenarůstala složitost metadat. Třídění vychází z textů, které jsou obsaženy v současné verzi korpusu. Konflikty, které se v budoucnu očekávají, budou řešeny pragmaticky (např. odborný časopis bude zařazen do skupiny "odborná teoretická" nebo "odborná praktická", neboť je to z hlediska předpokládaného lingvistického výzkumu podstatnější než periodicita vydávání; analogicky nyní spadá "časopis pro zábavu a poučení" pod skupinu "periodikum" a nikoli "mix", protože označení formy má větší výpovědní hodnotu atd.). | |
| |
//Textová skupina// (''txtype_group'') představuje vyšší úroveň obecnosti a měla by pokrýt většinu textů, které budou do korpusu přibývat. | |
| |
**próza** | |
* | |
| |
| |
| |
//Textová skupina// představují vyšší úroveň obecnosti a | |
| |
vystihnout na textech to podstatné | |
| |
Názvy textových tříd mají být pokud možno obecně srozumitelné, a to i za cenu jisté nesystematičnosti v třídění. Na úrovni //textové skupiny// i //textového typu// jsou využita různá kritéria, podle nichž lze texty klasifikovat (žánry, literární druhy, registry, tematické kategorie). | |
| |
| |
| |
Kučera, K. – Řehořková, A. – Stluka, M.: //DIAKORP: Diachronní korpus, verze 6 z 18. 12. 2015//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz | Kučera, K. – Řehořková, A. – Stluka, M.: //DIAKORP: Diachronní korpus, verze 6 z 18. 12. 2015//. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: http://www.korpus.cz |
| |
| Kučera, K. (2014): Diachronní složka Českého národního korpusu a hranice možností korpusového výzkumu vývoje češtiny. //Naše řeč// 97 (4–5), 208–215. http://nase-rec.ujc.cas.cz/archiv.php?art=8339 |
</WRAP> | </WRAP> |
| |