This is an old revision of the document!
Introduction into the Diachronic Section of the CNC
The diachronic section of the CNC covers the texts of a total of seven centuries of the Czech language development. The first completed part (approximately 700 000 word forms) of the diachronic section of the Czech National Corpus (further only DCNC) was made accessible to the public in September 2005. Making the DCNC public continues at a pace of about 250 000 word forms yearly.
The DCNC contains texts dating from the end of the 13th century up to the beginning of the synchronic section, that is until 1989 inclusive (for journalistic and specialized texts), or to 1944 inclusive (for fiction). The DCNC thus contains texts from approximately seven centuries of the development of Czech; the texts were originally written down or printed in different spelling systems (simple, digraphic and diacritical orthography) and their combinations. The heterogeneous character of the texts entering the DCNC necessarily demands somewhat different processing than is usual both in the editions of older written texts (their rules are usually considerably adapted to the specific language and orthographic characteristics of a certain period, or characteristics of one author or work), and in the synchronic corpora (their rules are oriented to the contemporary state of language and to some extent are based on the current linguistic awareness of the corpus users).
The main goal in processing texts for the diachronic corpus is to ensure – despite the above mentioned variety – a uniform, the simplest possible and most universal search of texts from the entire seven-hundred-year historical development of Czech while retaining maximum relevant linguistic information contained in these texts. Two rules are applied in the diachronic corpus to meet these goals:
- The texts are transcribed, not transliterated. This rule enables to search for occurrences of specific forms of words in the diachronic corpus, just like in the synchronic one.
- The texts are tagged. This enables obtaining various information about individual texts and their structure as well as preserving substantial amount of linguistic information, which is normally lost when transcribing texts (for details see below).
In the future, the search options in the diachronic corpus will be considerably extended by lemmatization using hyperlemmata, which will allow the user to search for all occurrences of a specific lexeme, without respect to the variety of its period and other forms (for instance, when using the hyperlemma kůň in your search, it will also find the older Czech forms of kóň and kuoň).
The List of Texts of the DIACORP Corpus
origin | author | name of the work | number of words |
---|---|---|---|
latter half of the 14th cent. | Jan Milíč z Kroměříže | Milíčovský sborník modliteb (UK XVII F 30) R | 46190 |
latter half of the 14th cent. | Pasionál muzejní (Muz III D 44) (R) | 159661 | |
latter half of the 14th cent. | Život Krista Pána (UK XVII A 9) (R) | 61196 | |
1380–1400 | tzv. Svatovítský rukopis (R) | 33801 | |
1389–1401 | Tomáš Štítný ze Štítného | Řeči besední (Budyšínský rkp. 20 56), podle edice M. Nedvědové (R) | 56381 |
end of the 14th cent. | Překlad proroků Izaiáše, Jeremiáše, Daniela (UK XVII D 33) (R) | 74230 | |
c. 1400 | Přibík Pulkava z Radenína | Pulkavova Kronika králů českých, (Rajhrad, klášt. arch. H d 22b) podle edice J. Gebauera) (R) | 70227 |
1st half of the 15th cent. | Životy svatých otců UK XVII D 36 (R) | 107791 | |
mid-15th cent. | Hvězdářství krále Jana (R) | 28328 | |
mid-15th cent. | tzv. lékařství neznámého františkána (UK XVII B 18) (R) | 93949 | |
1491-92 | Martin Kabátník | Cesta z Čech do Jeruzaléma a Egypta (KapPraž O 35) (R) | 17274 |
1495 | Traktáty a modlitby; Strahovská knihovna DG V 3 (R) | 4370 | |
early 16th cent. | Raimund Lullius | Praktika testamentu (Strahov DG IV 24) | 14220 |
1532 | Jan z Chocně | O krvi pouštění žilami | 4034 |
1552 | Jan Vočehovský | Krátkej spis o morové nemoci | 12862 |
1558 | Knížka o štěpování rozkošných zahrad. | 10335 | |
1565 | Simon Eunius Glatouinus | Sepsání kronik a životů … | 86823 |
1577 | Čtení Nikodémovo | 15214 | |
1580 | Georg Ursinus | Nové praktiky dvě | 10811 |
1580 | Služba křtu svatého | 1581 | |
1581 | Hájek Václav z Libočan | Snář | 61211 |
1585 | Hostounský Baltazar | Obrácení pohanův v Jáponě | 40754 |
1595 | Bartoloměj Paprocký z Hlahol | Kvalt na pohany | 7442 |
17th cent. | Matouš Walknberger z Walkenberku | Historie o králi Alexandrovi makedonském | 20979 |
1615 | Phaeton (Žalavský) Havel | O ctných manželkách těhotných a rodičkách křesťanských … (Strahovská knihovna, BT VIII 6) | 14256 |
1620 | Jiřík Třanovský | Konfesí augšpurská | 20719 |
1620 | Martin Hudera | Pláč robotných lidí | 2398 |
1624 | Jan Ámos Komenský | Pres boží | 2822 |
1650 | Jan Ámos Komenský | Kšaft umírající matky Jednoty bratrské | 5377 |
1662 | Jan Amos Komenský | Labyrint světa a ráj srdce | 47191 |
1705 | Kryštof Fišer | Knihy hospodářské hospodářství polního | 143886 |
1732 | Jan Liberda | Harfa nová na hoře Sion znějící | 24262 |
1736 | Josef Han | Jerusalem nova, Jeruzalem nový | 7103 |
1738 | Desatero připíjení mládenecké | 1002 | |
1760 | mistr Albrecht | Lékařství konská jistá a dokonale skušená (Strahovská knihovna, AC VI 81) | 10342 |
1768 | Paulus Diaconus | Historie pobožná a velmi příkladná | 11632 |
1775–1820 | Píseň nová aneb řemeslu mlynářskému… | 376 | |
1792 | Prokop Šedivý | České amazonky aneb děvčí boj v Čechách pod zprávou rekyně Vlasty. | 20167 |
1793 | Aleš Pařízek | O svobodě a rovnosti městské | 18668 |
1803 | Kramerius V. M. | Dobrá rada v potřebě | 32556 |
1828 | Presl J. S. | Lučba čili chemie zkusná | 67653 |
1832–33 | Karel Hynek Mácha | Klášter sázavský (R) | 1220 |
1832–33 | Karel Hynek Mácha | Rozbroj světů, Svět smyslný (R) | 430 |
1833 | Karel Hynek Mácha | Návrat (R) | 1089 |
1833 | Karel Hynek Mácha | Pouť krkonošská (R) | 2743 |
1833 | Karel Hynek Mácha | Poutník (R) | 126 |
1834 | Karel Hynek Mácha | Rozbroj světů, Svět zašlý (R) | 853 |
1834–35 | Karel Hynek Mácha | Křivoklát (R) | 12448 |
1834–35 | Karel Hynek Mácha | Obrazy ze života mého, Marinka (R) | 4261 |
1834–35 | Karel Hynek Mácha | Obrazy ze života mého, Večer na Bezdězu (R) | 1108 |
1835 | Karel Hynek Mácha | Cikáni (R) | 28411 |
1835 | Karel Hynek Mácha | Deník na cestě do Itálie (R) | 4372 |
1835 | Karel Hynek Mácha | Deník z roku 1835 (R) | 2970 |
1836 | Karel Hynek Mácha | Valdice (R) | 1791 |
1861 | Jilji V. Jahn | Obrazy života. Domácí ilustrovaná biblioteka zábavného i poučného čtení na rok 1861. | 107430 |
1869 | Český študent | 100375 | |
1890 | Alois Jirásek | Filosofská historie | 30337 |
1893 | Karel Klostermann | V ráji šumavském | 76041 |
1939 | Karel J. Beneš | Kouzelný dům | 101377 |
Citing DIAKORP
Kučera, K. – Stluka, M.: DIAKORP: Diachronní korpus, verze 5 z 21. 2. 2011. Ústav Českého národního korpusu FF UK, Praha 2011. Available on-line: http://www.korpus.cz