Příručka ČNK - cnk

aibrown

Anonymous (anonymous@undisclosed.example.com) — 2025-10-13T12:10:56+00:00

AI-Brown AI-Brown is a generated, annotated, multi-genre corpus of English texts produced by large language models (LLMs). Positions Number of positions (tokens) 27 661 454 Number of positions (excl. punctuation) 23 975 982 Number of word forms (excl. punctuation)

aikoditex

Anonymous (anonymous@undisclosed.example.com) — 2025-10-13T12:08:59+00:00

AI-Koditex AI-Koditex is a generated, annotated, multi-genre corpus of Czech texts produced by large language models (LLMs). Positions Number of positions (tokens) 24 030 795 Number of positions (excl. punctuation) 20 180 737 Number of word forms (excl. punctuation)

anotacni_standard_cnk

Anonymous (anonymous@undisclosed.example.com) — 2026-01-15T10:22:08+00:00

Anotační standard ČNK pro morfologii a lemmatizaci ČNK používá v synchronních psaných korpusech (počínaje korpusy SYN2020 a SYN_v9, dále např. korpusy NET a ONLINE) i v mluvených korpusech (Ortofon_v3) jednotný anotační standard pro morfologické značkování a lemmatizaci. Anotační standard zahrnuje tokenizaci (vymezení tokenů v textu), lemmatizaci (základní, slovníkové tvary tokenů) a morfologické značkování včetně speciálních značek pro slovesné tvary.

aranea

Anonymous (anonymous@undisclosed.example.com) — 2026-04-08T11:29:48+00:00

Korpusy Aranea Rodina nereferenčních srovnatelných webových korpusů sestavených Vladimírem Benkem. V současné době pokrývá celkem 14 jazyků (cs, de, en, es, fi, fr, hu, it, nl, pl, pt, ru, sk, zh), pro některé jazyky jsou dále k dispozici specifické korpusy obsahující pouze některou z variet (vedle globální angličtiny také angličtina africká a asijská, vedle celku ruštiny také ruština z ruských a neruských domén). Pro každý jazyk či varietu jsou k dispozici vždy dva korpusy: základní větší (…

baltischebriefe

Anonymous (anonymous@undisclosed.example.com) — 2024-11-08T11:19:46+00:00

Baltische Briefe „Baltische Briefe“ (Baltské listy) jsou historické noviny, které sloužily jako důležitá platforma pro baltskou německou komunitu, zejména po jejím přesídlení během druhé světové války a po ní. Noviny dokumentovaly zkušenosti, kulturu a dědictví pobaltských Němců a zprostředkovávaly spojení s jejich rodnou zemí v Estonsku, Lotyšsku a Litvě. Staly se důležitým médiem pro zachování kulturní identity, historie a tradic v diaspoře. Dodnes jsou noviny zdrojem informací pro pochopení …

bmk

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T15:25:18+00:00

Brněnský mluvený korpus Brněnský mluvený korpus (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zaznamenává autentickou tematicky nespecializovanou mluvu města Brna. BMK je elektronickým přepisem dvou set padesáti anonymních magnetofonových nahrávek z let 1994

capek

Anonymous (anonymous@undisclosed.example.com) — 2019-12-19T12:54:23+00:00

Korpusy textů Karla Čapka Korpusy 'capek' a 'capek_uplny' jsou autorskými korpusy Karla Čapka, které vznikly jako datový podklad Slovníku Karla Čapka. Korpus 'capek' obsahuje všechny texty, které napsal Karel Čapek nesporně sám, a to jak z hlediska spoluautorství, tak i ovlivněnosti partnerem nebo překládaným originálem, zatímco korpus 'capek_uplny' je úplným souborem všech textů, na nichž se Karel Čapek jakkoli autorsky podílel (např. tedy včetně textů, které napsal spolu s bratrem Josefem). Z…

cep

Anonymous (anonymous@undisclosed.example.com) — 2019-12-16T10:24:11+00:00

Korpus textů Jana Čepa Korpus 'cep' je autorským korpusem prozaických textů Jana Čepa, který vznikl jako datový podklad monografie Richarda Změlíka Kvantitativně-korpusová analýza a literární věda. Ke knize vznikl také samostatný web, kde je možné s některými kvantitativními údaji pracovat. Korpus je lemmatizován a morfologicky označkován, verze anotace odpovídá knize. Podrobný popis a uspořádání korpusu Čepových textů lze najít zejména na str. 80

citace

Anonymous (anonymous@undisclosed.example.com) — 2023-10-13T15:12:44+00:00

Jak citovat korpusy zpřístupňované ČNK Způsoby citování korpusů Existují v zásadě dva způsoby, jakým korpusy při vědecké práci citovat: * uvedení korpusu jako pramene či zdroje dat; * uvedení odkazu na konkrétní článek, který popisuje vznik korpusu a jeho složení.

codit

Anonymous (anonymous@undisclosed.example.com) — 2021-03-29T12:16:00+00:00

Korpus CODIT Corpus diacronico dell’italiano -- ‘Diachronní korpus italštiny’ CODIT je vyvážený diachronní korpus psané italštiny o celkové velikosti přibližně 33 mil. tokenů. Korpus je v ČNK hostován díky Marii Silvii Micheli, která ho sestavila. CODIT pokrývá celé období vývoje italštiny od 13. století do roku 1947, jeho struktura je analogická ke korpusu

czesl-man

Anonymous (anonymous@undisclosed.example.com) — 2020-11-17T13:34:43+00:00

CzeSL-man – korpus češtiny nerodilých mluvčích s ruční chybovou anotací podle zjednodušeného víceúrovňového schématu Pod názvem CzeSL-man je ve vyhledávacím rozhraní KonText přístupný korpus CzeSL-man v1 searchable, který obsahuje ručně anotované texty nerodilých mluvčích češtiny. Jde o část textů z korpusu

czesl-plain

Anonymous (anonymous@undisclosed.example.com) — 2018-08-07T10:37:09+00:00

Korpus CzeSL-plain Žákovský korpus CzeSL-plain (Czech as a Second Language, plain = bez anotace) je jedním z výstupů projektu Inovace vzdělávání v oboru čeština jako druhý jazyk v rámci operačního programu Vzdělávání pro konkurenceschopnost s finanční podporou Strukturálních fondů EU (ESF) a státní rozpočtu České republiky.

czesl-sgt-basic

Anonymous (anonymous@undisclosed.example.com) — 2019-10-31T18:53:28+00:00

CzeSL-SGT – korpus češtiny nerodilých mluvčích se zjednodušenými možnostmi vyhledávání Korpus CzeSL-SGT-basic vychází z korpusu CzeSL-SGT (Czech as a Second Language with Spelling, Grammar and Tags), který obsahuje přepisy písemných prací nerodilých mluvčích češtiny a navazuje na část CIZ korpusu

czesl-sgt

Anonymous (anonymous@undisclosed.example.com) — 2019-10-31T18:55:13+00:00

CzeSL-SGT – korpus češtiny nerodilých mluvčích s automaticky provedenou anotací Žákovský korpus CzeSL-SGT (Czech as a Second Language with Spelling, Grammar and Tags) obsahuje přepisy písemných prací nerodilých mluvčích češtiny. Navazuje tak na část CIZ korpusu

dewac

Anonymous (anonymous@undisclosed.example.com) — 2024-08-02T10:35:00+00:00

Korpus deWaC Korpus webových textů stažených z domény .de, jeho celkový rozsah je 1,35 miliardy slov. Korpus je slovnědruhově označkován a lemmatizován nástrojem TreeTagger, podrobnější informace o vzniku korpusu najdete zde. Jak citovat M. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta. 2009. The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora. Language Resources and Evaluation 43(3): 209-226. (

diakorp

Anonymous (anonymous@undisclosed.example.com) — 2024-02-01T15:13:56+00:00

Korpus Diakorp Korpus Diakorp reprezentuje diachronní složku ČNK. Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus referenční, průběžně rostoucí ve verzích. První verze (přibližně 700 000 slovních tvarů) byla zpřístupněna veřejnosti v září roku 2005 a je nadále průběžně rozšiřována (textová základna korpusu narůstá tempem přibližně 250 000 slovních tvarů ročně). V současné dob…

dialekt

Anonymous (anonymous@undisclosed.example.com) — 2026-06-30T09:58:05+00:00

Dialekt_dial•v2 Dialekt_ort•v2 Počet pozic (tokenů) 310 200 298 539 Počet pozic (tokenů) bez interpunkce a dalších značek 223 281 223 327 Počet slovních tvarů (wordů) 33 715 25 360 Počet nahrávek 972 Počet promluv 43 628 Počet mluvčích 291 Délka nahrávek (hh:mm:ss.ms) 27:43:21.423

dotko

Anonymous (anonymous@undisclosed.example.com) — 2023-09-27T11:26:35+00:00

Korpus DOTKO DOTKO v2 (DOlnoserbski Tekstowy KOrpus) je rozšířená verze diachronního korpusu dolní lužické srbštiny připravovaného v chotěbuzské pobočce Lužickosrbského institutu. Zahrnuje největší část historických dolnolužickosrbských tisků od počátku 18. století do úplného zákazu veřejného užívání lužické srbštiny v roce 1937. Nejstarší text korpusu v tuto chvíli pochází z roku 1706, nejnovější z roku 1936. Podstatnou část tvoří texty Bramborského Casniku (dolnolužických novin) z let 1848 – …

eebo

Anonymous (anonymous@undisclosed.example.com) — 2025-05-28T12:36:07+00:00

EEBO (Early English Books Online) Korpus EEBO verze 1 obsahuje více než 25 000 anglických textů z let 1475--1700, které byly zdigitalizovány konsorciem Text Creation Partnership v rámci projektu Early English Books Online; proces digitalizace je podrobně popsán zde. Celkový rozsah korpusu je přibližně

etalon

Anonymous (anonymous@undisclosed.example.com) — 2021-06-02T17:13:45+00:00

Korpus Etalon: ručně anotovaný korpus českých textů Korpus Etalon je synchronní korpus psané češtiny, který byl manuálně morfologicky označkován podle stejných zásad jako SYN2020. Pozice Počet pozic (tokenů) Počet pozic bez interpunkce 1 885 621 Struktury Počet dokumentů 94 Počet vět

fictree

Anonymous (anonymous@undisclosed.example.com) — 2017-12-18T18:25:02+00:00
Korpus FicTree: manuálně syntakticky anotovaný korpus české beletrie Korpus FicTree je syntakticky anotovaný korpus současné české beletrie, obsahující 135 000 slov (166 000 tokenů). Syntaktická anotace textu byla provedena manuálně. Korpus je také manuálně lemmatizovaný a

frwac

Anonymous (anonymous@undisclosed.example.com) — 2024-08-02T10:34:02+00:00
Korpus frWaC Korpus webových textů stažených z domény .fr, jeho celkový rozsah je 1,35 miliardy slov. Korpus je slovnědruhově označkován a lemmatizován nástrojem TreeTagger, podrobnější informace o vzniku korpusu najdete zde. Jak citovat A. Ferraresi, S. Bernardini, G. Picci and M. Baroni (2010) “Web Corpora for Bilingual Lexicography: A Pilot Study of English/French Collocation Extraction and Translation”. In Xiao, R. (ed.) Using Corpora in Contrastive and Translation Studies. Newcastle: Ca…

fsc2000

Anonymous (anonymous@undisclosed.example.com) — 2021-09-21T09:06:16+00:00
Korpus FSC2000 Korpus FSC2000 je referenčním zdrojem a doplňkem Frekvenčního slovníku češtiny (FSČ), který vyšel koncem roku 2004 v NLN. Korpus FSC2000 vychází z korpusu SYN2000, postup jeho vzniku je popsán níže. Jedním z důsledků tohoto postupu je, že texty obsažené v korpusu FSC2000 jsou vlastně podmnožinou textů obsažených v korpusu SYN2000. Přesná velikost korpusu FSC2000 činí bez započtení interpunkce 95 854 929 slovních tvarů; velikost 114 363 813 pozic, udávaná korpusovým manažerem, je …

hotko

Anonymous (anonymous@undisclosed.example.com) — 2025-07-17T11:36:48+00:00
Korpus HOTKO HOTKO (HOrnjoserbski Tekstowy KOrpus) je korpus horní lužické srbštiny připravovaný v Lužickosrbském institutu v Budyšíně. Korpus obsahuje publicistické, beletristické, náboženské a vědecké texty od poloviny 19. století až do současnosti. Největší část tvoří publicistika (57 %) a beletristika (23 %), zahrnuta je též řada slovníků (12 %). Co se časového zařazení týče, pochází více než polovina textů z nedávné doby po politickém převratu 1989/1990 (54 %). Většina textů byla naskenová…

intercorp

Anonymous (anonymous@undisclosed.example.com) — 2025-06-04T21:49:56+00:00
Korpus InterCorp Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus pokrývající co největší počet jazyků. Na jeho tvorbě se významnou měrou podílejí pedagogové a studenti FF UK v Praze a další spolupracovníci ÚČNK. Korpus slouží jako zdroj dat pro teoretické studie, lexikografii, studentské práce, výuku, zejména výuku cizích jazyků, počítačové zpracování přirozeného jazyka, překladatele i veřejnost.…

itwac

Anonymous (anonymous@undisclosed.example.com) — 2024-08-02T10:36:58+00:00
Korpus itWaC Korpus webových textů stažených z domény .it, jeho celkový rozsah je 1,6 miliardy slov. Korpus je slovnědruhově označkován a lemmatizován nástrojem TreeTagger, podrobnější informace o vzniku korpusu a použitém lexikonu Morph-it! najdete zde.

jazyky-v-migraci

Anonymous (anonymous@undisclosed.example.com) — 2023-07-10T13:24:35+00:00
Jazyky v migraci Popis korpusu Korpus Jazyky v migraci tvoří záznam spontánní jazykové produkce mluvčích užívajících neformální mluvenou češtinu a němčinu. Mluvčí, s nimiž byly vedeny rozhovory v letech 2018, 2019 a 2020, se ve svých vyprávěních ohlížejí za svou jazykovou biografií v Československu, respektive v jeho českojazyčné části, a ve Spolkové republice Německo. Ta část rozhovoru, která je vztažena k Československu, je z důvodu elicitace morfosyntaktických jevů spojených s jazykovým kon…

jerome

Anonymous (anonymous@undisclosed.example.com) — 2015-08-04T14:43:35+00:00
Korpus JEROME Korpus Jerome je jednojazyčný srovnatelný korpus (monolingual comparable corpus) speciálně sestavený pro zkoumání překladové češtiny (tedy textů přeložených do češtiny z jiných jazyků) v porovnání s češtinou nepřekladovou (původní česky psanou). Pozor, nejedná se o korpus paralelní, jenž obsahuje překlady a k nim zarovnané originály neboli zdrojové texty; nepřekladová čeština zde tedy hraje roli referenčního korpusu. Korpus je primárně určen translatologům a lingvistům, kteří se c…

kh-dopisy

Anonymous (anonymous@undisclosed.example.com) — 2021-06-15T07:38:39+00:00
Korpus korespondence Karla Havlíčka Korpus korespondence Karla Havlíčka (kh-dopisy) obsahuje kompletní soubor dopisů, které souvisejí s osobou Karla Havlíčka (1821–1856). Spisovatel je vždy buď autorem, nebo přímým či nepřímým adresátem dopisů: zařazeny jsou i listy adresované redakci novin a časopisů, které Havlíček řídil. Dopisy jsou psány různými jazyky (česky, německy, polsky, francouzsky aj.). Celý soubor zahrnuje 1 203 dokumentů z let 1831–1856. Celkový rozsah korpusu je přibližně 500 tis…

kh-noviny

Anonymous (anonymous@undisclosed.example.com) — 2021-06-15T07:38:24+00:00
Korpus publicistiky Karla Havlíčka Korpus publicistiky Karla Havlíčka (KH-noviny) obsahuje veškeré publicistické texty Karla Havlíčka (1821–1856) otištěné v jím redigovaných periodikách Pražské noviny (1846–1848, včetně přílohy Česká včela) a Národní noviny (1848–1850). Celkový rozsah korpusu je 1 182 159 pozic.

klasifikace_textu_syn2015

Anonymous (anonymous@undisclosed.example.com) — 2026-01-15T13:25:00+00:00
Přehled klasifikace textů v korpusech řady SYN (od SYN2015) Texty v novějších korpusech řady SYN jsou (počínaje korpusem SYN2015) rozděleny do tří hlavních skupin (txtype_group): * FIC: beletrie * NFC: oborová literatura * NMG: publicistika Každá z těchto skupin tvoří v korpusu jednu třetinu textů.

klaus

Anonymous (anonymous@undisclosed.example.com) — 2024-11-21T13:09:18+00:00
Korpus textů Václava Klause Korpus textů Václava Klause ('VK') je autorským korpusem Václava Klause staršího, který vznikl jako datový podklad diplomové práce Idiolekt Václava Klause: korpusová analýza. Zdrojem dat pro vytvoření korpusu byly Klausovy oficiální webové stránky. Tento web obsahuje jak texty určené primárně pro tyto stránky, tak i texty původně publikované jinde (např. články v novinách či rozhovory v časopisech), respektive vytvořené k určitým konkrétním událostem (např. prezident…

koditex

Anonymous (anonymous@undisclosed.example.com) — 2021-11-18T11:53:00+00:00
Korpus Koditex Koditex je synchronní, reprezentativní a referenční korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny. Pozice Počet pozic (tokenů) 10 880 550 Počet pozic bez interpunkce

ksk-dopisy

Anonymous (anonymous@undisclosed.example.com) — 2023-02-22T13:16:46+00:00
Korpus soukromé korespondence Korpus soukromé korespondence (KSK-dopisy) umožňuje nahlédnout do jazyka a stylu současných epistolárních textů soukromého charakteru. Jde o korpus zachycující možná v posledním existenčním stadiu tradiční ručně psanou korespondenci.

ksk-prepis

Anonymous (anonymous@undisclosed.example.com) — 2015-04-13T09:33:11+00:00
Sběr a přepis dopisů Sběr soukromé korespondence pro korpus KSK-dopisy probíhal v ÚČJ FF MU od konce 90. let 20. století. V současné době archiv shromážděných textů obsahuje zhruba 3000 elektronických přepisů ručně psaných dopisů, 1500 e-mailů a cca 2500 SMS.

ksp

Anonymous (anonymous@undisclosed.example.com) — 2025-10-22T07:42:58+00:00
Korpus současné poezie KSP vzniká od roku 2015 ve spolupráci Ústavu pro českou literaturu AV ČR, v. v. i. a ÚČNK. Jedná se, jak už název napovídá, o korpus současných básnických textů české provenience (vymezené lety 1990 a 2020), tj. reprezentativní vzorek tuzemského básnictví za poslední tři dekády. Co je podstatné, tento vzorek zahrnuje nejen texty oficiálně knižně vydané, a tedy i prošlé klasickým edičním procesem, ale i tvorbu amatérskou, koncentrovanou především na tzv. literární servery.…

lemtag_mluv

Anonymous (anonymous@undisclosed.example.com) — 2025-05-27T09:21:55+00:00
Lemmatizace a tagování mluvených korpusů ORAL (verze 1), ORTOFON (verze 1 a 2), DIALEKT (verze 1 a 2), ORATOR (verze 2) Lemmatizace a tagování transkriptu mluveného projevu je mnohem náročnější než u jazyka psaného. Přibývá zde neznámých tvarů (zachycované redukce výslovnosti, nářeční tvary, nová slova), jež mohou být homonymní s tvary zastoupenými v morfologickém slovníku pro psaný jazyk (např.

lestrepublicain

Anonymous (anonymous@undisclosed.example.com) — 2016-04-12T10:33:39+00:00
Korpus lEstRepublicain Korpus je složený ze 3 ročníků (1999, 2002 a 2003; ne všechny jsou kompletní) francouzského regionálního deníku L'Est Républicain. Ve verzi 2 obsahuje po deduplikaci téměř 73 milionů slov (verze 1 měla téměř 120 milionů slov) a byl vytvořen z dat CNRTL dostupných na adrese

lindsei_cz

Anonymous (anonymous@undisclosed.example.com) — 2017-04-27T13:25:54+00:00
LINDSEI_CZ Žákovský korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1. Historie a současnost Žákovský korpus LINDSEI_CZ vznikl jako součást mezinárodního projektu LINDSEI organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani (

link

Anonymous (anonymous@undisclosed.example.com) — 2015-04-13T09:45:28+00:00
Korpus LINK LINK (původně LIngvistův Narozeniový Korpus, který byl vytvořen u příležitosti životního jubilea prof. Františka Čermáka) je korpus sestavený pouze z lingvistických textů. Jako takový je určen zejména pro výzkum specifik akademického jazyka (výzkum terminologie, jazyk lingvistiky apod.).

mda

Anonymous (anonymous@undisclosed.example.com) — 2019-06-24T09:55:37+00:00
Multidimenzionální analýza češtiny Multidimenzionální analýza češtiny (MDA) je metoda vyvinutá Douglasem Biberem pro empirický výzkum textové variability. MDA je založená na předpokladu, že variabilita textů se manifestuje ve využití jazykových rysů z různých rovin (od fonologie a morfologie přes lexikon až po syntax a pragmatiku). Při koncipování textu je přitom využití jedněch rysů často podmíněno či podpořeno použitím rysů jiných, což vede k domněnce, že pro popis variability je optimální ry…

net

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T15:23:22+00:00
Korpus NET Pozice Počet pozic (tokenů) 51 733 873 176 365 880 Počet slovních tvarů (wordů) 1 245 717 2 637 707 Počet lemmat 750 650 1 744 001 Struktury Počet dokumentů 1 279 12 738 Počet textů 267 026 1 817 088 Počet odstavců
267 026 1 817 088 Počet vět

nkjp

Anonymous (anonymous@undisclosed.example.com) — 2018-11-06T09:25:28+00:00
Korpus NKJP_1M Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů (viz níže) a obsahující 1 milion textových slov. Jde o korpus současné polštiny s texty vydanými po roce 1945, zahrnující komunikaci psanou, mluvenou a webovou. Korpus je

obc

Anonymous (anonymous@undisclosed.example.com) — 2021-02-10T14:55:28+00:00
OBC: The Old Bailey Corpus 2.0 Old Bailey Corpus je sociolingvisticky, pragmaticky a textově anotovaný korpus obsahující výběr z Proceedings of Old Bailey. Korpus se skládá z 637 textů zaznamenávajících soudní procesy, které se konaly v letech 1720 až 1913 v Old Bailey v Londýně. Celkový rozsah korpusu přesahuje 24 mil. slov, jeho celková velikost pak 35 mil. tokenů (včetně interpunkce). Podrobnější informace o korpusu jsou k dispozici

oddil_statistiky_ke_korpusu_schola2010

Anonymous (anonymous@undisclosed.example.com) — 2014-03-26T15:47:46+00:00
Statistiky ke korpusu SCHOLA2010 (výběrově) I. SONDA Celkový počet sond 204Celková délka zvukových záznamů 143 h 25 minCelkový počet slov 792 764Průměrný počet slov na 1 sondu 3 886 Rok pořízení sondy Počet sond Počet slov

online

Anonymous (anonymous@undisclosed.example.com) — 2022-12-22T14:23:16+00:00
Korpusy ONLINE Korpusy ONLINE dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. primárně internetovou žurnalistiku, v menším měřítku a bez nároku na kontinuálnost pokrytí pak také diskuse a sociální sítě, od roku 2017 do současnosti.

onomos

Anonymous (anonymous@undisclosed.example.com) — 2025-07-15T13:55:14+00:00
Korpusy OnomOs v1 a OnomOs v2 Korpusy OnomOs v1 a OnomOs v2 jsou lingvisticky zpracované databáze textů z periodik Rudé právo (vycházelo 1920–1995) a Právo (1995–dosud). Korpus OnomOs v1 obsahuje vždy jedno náhodně vybrané číslo z každé dekády, v níž (Rudé) Právo vycházelo. Složení korpusu je podrobněji představeno na obrázku č. 1; celkem korpus obsahuje 255 149 tokenů.

oral

Anonymous (anonymous@undisclosed.example.com) — 2025-10-09T07:18:43+00:00
Korpus ORAL Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČR. Mluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníky) a byli nahráváni ve svém přirozeném prostředí. Nahrávky byly pořizovány v průběhu deseti let, v letech 2002–2011. Korpus není vyvážený, převažují data z české části České republiky (více viz

oral2006

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T15:25:19+00:00
Český mluvený korpus ORAL2006 Mluvený korpus ORAL2006 je v pořadí třetím mluveným korpusem, který je dostupný v rámci projektu Český národní korpus. Zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu (tj. pouze z Čech, ne z Moravy a Slezska

oral2008

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T15:25:19+00:00
Korpus mluvené češtiny ORAL2008 Korpus mluvené češtiny ORAL2008 zachycuje stejně jako ORAL2006 mluvu ve výhradně neformálních, dialogických situacích. Jde však o první mluvený korpus ČNK, který je plně vyvážený v základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus ORAL2008 vychází ze stejné materiálové základny jako ORAL2006, avšak žádný z přepisů zařazených do korpusu ORAL2008 nebyl použitý v korpusu ORAL2006…

oral2013

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T15:25:19+00:00
Korpus neformální mluvené češtiny ORAL2013 Korpus mluvené spontánní češtiny ORAL2013 je dalším mluveným korpusem projektu Český národní korpus. Svou koncepcí navazuje na korpusy neformální mluvené češtiny ORAL2006 a ORAL2008, v mnoha podstatných ohledech ale doznal změn a vylepšení. Stejně jako stávající korpusy řady ORAL i tento korpus zachycuje spontánní konverzaci výhradně v neformálních komunikačních situacích. Nejzásadnějšími změnami je propojení přepisu se zvukovou stopou, zavedení pauzov…

orator

Anonymous (anonymous@undisclosed.example.com) — 2026-06-30T09:56:37+00:00
Korpus monologů: ORATOR Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, o kterých jsou předem informováni a na něž se mohou připravit. Mluvčí má předem daný časově vymezený prostor, ve kterém může a musí vytvářet svůj projev. S tím souvisí větší formálnost, až oficiálnost těchto situací. Data tohoto typu v mluvených korpusech češtiny dosud chyběla.

ortofon

Anonymous (anonymous@undisclosed.example.com) — 2026-06-30T09:59:38+00:00
Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON Korpus ORTOFON zachycuje spontánní mluvený jazyk používaný v neformálních situacích mezi mluvčími, kteří se znají. Navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady

orwell

Anonymous (anonymous@undisclosed.example.com) — 2015-04-13T09:48:34+00:00
Korpus ORWELL Tento korpus vznikl v rámci projektu EU Multext-East a tvoří jej text románu George Orwella 1984 (z angl. orig. přel. Eva Šimečková; Praha: Naše vojsko, 1991). Korpus obsahuje cca 80 tisíc slov a 20 tisíc interpunkčních znamének, tj. cca 100 tisíc korpusových pozic, a je morfologicky

parlcorp

Anonymous (anonymous@undisclosed.example.com) — 2021-06-05T13:04:06+00:00
ParlCorp: Korpus českých parlamentní projevů Korpus ParlCorp obsahuje monologické projevy pronesené na půdě Poslanecké Sněmovny České republiky. Základem korpusu jsou stenoprotokoly parlamentních jednání veřejně dostupné na doméně

pmk

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T15:25:19+00:00
Pražský mluvený korpus Pražský mluvený korpus (PMK) je prvním korpusem mluvené češtiny a zachycuje autentickou mluvenou češtinu, hlavně obecnou a tematicky nespecializovanou, resp. neomezovanou, z oblasti Prahy a jejího okolí. Vzhledem k centrálnímu a jedinečnému postavení Prahy v rámci celé země tu jazykově dochází k velkému míšení lidí ze všech oblastí ČR a obraz jejího jazyka má tudíž do značné míry celonárodní povahu; z Prahy vychází také nejvýznamnější mediální ovlivnění celé země. Více ne…

psalm77

Anonymous (anonymous@undisclosed.example.com) — 2023-02-01T15:45:55+00:00
Žalm 77 Paralelní korpus starších překladů žalmu 77 se zaměřením na starou rumunštinu Korpus Žalm 77 je výsledkem projektu uskutečněného na podzim 2022, jehož cílem bylo zpracovat všechny starší rumunské verze žalmu 77 a zarovnat je s verzemi v řečtině a v církevní slovanštině. Korpus vytvořila Constanța Burlacu v rámci programu

registrova_klasifikace

Anonymous (anonymous@undisclosed.example.com) — 2021-02-12T13:50:03+00:00
Registrová klasifikace Registrová klasifikace v korpusech ČNK slouží k zachycení pohledu na textovou variabilitu, který je komplementární ke kategoriím txtype či genre. Zatímco tyto atributy zachycují vnětextovou perspektivu (tedy to, jak je text konvenčně vnímán na základě formálních znaků, např. román, dopis či odborný článek), atribut

romcro

Anonymous (anonymous@undisclosed.example.com) — 2026-05-25T15:25:41+00:00
RomCro 2.0 - Paralelní korpus románských jazyků a chorvatštiny Projekt Paralelní korpus románských jazyků a chorvatštiny (RomCro) byl zahájen v roce 2019 na katedře románské lingvistiky Katedry romanistiky Fakulty humanitních a sociálních věd Záhřebské univerzity. Korpus sdružuje pět románských jazyků (francouzštinu, portugalštinu, rumunštinu, italštinu, španělštinu a nedávno katalánštinu) a díky zařazení chorvatštiny přispívá k rozšíření stávajících jazykových zdrojů pro chorvatštinu. Skládá …

schola_vyhledavani_a_subkorpusy

Anonymous (anonymous@undisclosed.example.com) — 2021-01-07T11:52:50+00:00
Vyhledávání v korpusu SCHOLA2010 a vytváření subkorpusů Dotazy v korpusu SCHOLA2010 můžeme zadávat pomocí přístupu do korpusu přes webové rozhraní KonText. Vytváření subkorpusů (pro přihlášené uživatele) Jazykový materiál v korpusu SCHOLA2010 lze omezit podle toho, jaký cíl má naše vyhledávání. Uživatel si může podle různých kritérií (i podle jejich kombinací) vytvořit subkorpus, se kterým bude dále pracovat (subkorpus může zůstat uživateli po přihlášení nastaven v seznamu ostatních korpusů n…

schola2010

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T15:25:19+00:00
Korpus vyučovacích hodin SCHOLA2010 Korpus SCHOLA2010 je sociologicky i didakticky jedinečný korpus, protože vychází ze školního prostředí a zaznamenává mluvený jazyk vyučovacích hodin (především standardních vyučovacích hodin s délkou cca 45 min.). Uživatelům se tak nabízí jazykový materiál, v němž je zachycena mluva učitelů i žáků během vyučování. Zatím je to jediný veřejně přístupný korpus tohoto typu. Uvedený korpus se od ostatních mluvených korpusů zveřejněných v Českém národním korpusu li…

skript_vyhledavani_a_subkorpusy

Anonymous (anonymous@undisclosed.example.com) — 2021-01-07T11:53:58+00:00
Vyhledávání v korpusu SKRIPT2012 a vytváření subkorpusů Dotazy v korpusu SKRIPT2012 můžeme zadávat pomocí přístupu do korpusu přes webové rozhraní KonText. Inspirací nám může být také korpus SCHOLA2010, viz Vyhledávání v korpusu SCHOLA2010 a vytváření subkorpusů. Vytváření subkorpusů (pro přihlášené uživatele)

skript2012_znacky

Anonymous (anonymous@undisclosed.example.com) — 2015-05-12T13:58:40+00:00
Sociolingvistické a didaktické značky v korpusu SKRIPT2012 V korpusu SKRIPT2012 se nacházejí sociolingvistické a didaktické charakteristiky, které byly vytvořeny na základě korpusu SCHOLA2010; jsou to informace o dokumentu, o škole, o třídě, o žáku a o učiteli, viz přehled značek uvedených níže v tabulce. Kromě toho korpus

skript2012-prepis

Anonymous (anonymous@undisclosed.example.com) — 2014-04-16T08:57:35+00:00
Zásady pro přepis korpusu SKRIPT2012 Přepis je koncipován tak, aby v přepsaném textu zůstalo zachováno maximum informací obsažených v původním rukopisu, zpracovatelé tedy v žádném případě text neopravovali ani neupravovali. Přepsán byl pouze text žáka a případné učitelem zadané úseky textu, sloužící žákovi jako vodítko (např. začátek práce, osnova atp.). Nebyly přepisovány komentáře a poznámky učitele, ani jeho opravy.

skript2012

Anonymous (anonymous@undisclosed.example.com) — 2015-05-12T13:57:23+00:00
Korpus Skript2012 Korpus SKRIPT obsahuje celkem 708 668 pozic (bez komentářů v závorce 707 511, bez interpunkce 587 857) a zahrnuje přepisy písemných prací českých žáků, které vznikly v souvislosti s jazykovým vyučováním ve školách základních a středních od 5. třídy ZŠ (resp. ekvivalentních ročníků víceletých gymnázií) po poslední ročník gymnázií, podrobněji viz

sociolingvisticke_znacky_a_charakteristiky_v_korpusu_schola2010

Anonymous (anonymous@undisclosed.example.com) — 2015-05-12T14:01:00+00:00
Sociolingvistické značky a charakteristiky v korpusu SCHOLA2010 V korpusu SCHOLA2010 se nacházejí specifické sociolingvistické charakteristiky nevyskytující se v ostatních mluvených korpusech: informace o sondě (navíc -- region, místo pořízení sondy, velikost sídla), o škole, o třídě, o vyučovacím předmětu, o vyučovací hodině a doplňující údaje o mluvčím (jedinečný kód mluvčího; věkové skupiny platné pro učitele, cizí dospělé osoby, žáky a cizí žáky; aprobace pro učitele a cizí dospělé osoby; …

speeches

Anonymous (anonymous@undisclosed.example.com) — 2015-10-01T10:09:38+00:00
Korpus prezidentských projevů Speeches Korpus oficiálních prezidentských projevů Speeches byl vytvořen na základě spolupráce ČNK s Universitou v Oslo. Svým zaměřením na připravené written to be spoken texty, v nichž funkčně převažuje psaná čeština a které se k mluveným textům často dají řadit pouze na základě použitého akustického média, se zařazuje do prostoru mezi řadou

statistiky_ke_korpusu_skript2012

Anonymous (anonymous@undisclosed.example.com) — 2014-05-29T17:22:30+00:00
Statistiky ke korpusu Skript2012 I. Údaje o sondě / dokumentu Základní informace o písemné práci Celkový počet písemných prací 1694 Celkový počet slov 587 857Průměrný počet slov na 1 písemnou práci 347 Rok pořízení písemné práce

struktura_oral

Anonymous (anonymous@undisclosed.example.com) — 2017-06-02T05:21:31+00:00
Struktura spojeného korpusu ORAL Počet nahrávek podle roku pořízení Tab. 1: Počet nahrávek podle počtu mluvčích Počet mluvčích Počet nahrávek 2 6313 4084 2585 1406 717 148 139 6 Tab. 2: Počet mluvčích a slov podle vzdělání

struktura_ortofon

Anonymous (anonymous@undisclosed.example.com) — 2024-06-04T09:48:15+00:00
Struktura korpusu ORTOFON v1 Následující přehled se týká pouze 1. verze korpusu ORTOFON z roku 2017. Počet nahrávek podle roku pořízení Regionální původ mluvčích Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici

struktura-capek

Anonymous (anonymous@undisclosed.example.com) — 2019-12-17T13:44:51+00:00
Popis strukturních atributů korpusů Čapek a Čapek-úplný:

struktura-oral13

Anonymous (anonymous@undisclosed.example.com) — 2015-04-15T17:12:22+00:00
Struktura korpusu ORAL2013 Tab. 1: Počet nahrávek podle roků Rok Počet nahrávek 2008 147 2009 301 2010 236 2011 151 Tab. 2: Počet nahrávek podle počtu mluvčích Počet mluvčíchPočet nahrávek 2 380 3 204 4 139 5 76 6 28

struktura

Anonymous (anonymous@undisclosed.example.com) — 2021-02-17T19:10:24+00:00
Struktura Českého národního korpusu Korpusy ČNK reprezentují buď psanou češtinu -- a to z pohledu synchronního, nebo diachronního --, anebo češtinu mluvenou, v níž máme k dispozici především data současná. Paralelní korpusy, které jsou rovněž součástí ČNK, umožňují analyzovat jazyk překladů. Mimo tuto základní klasifikaci pak leží korpusy

syn

Anonymous (anonymous@undisclosed.example.com) — 2026-01-23T09:08:11+00:00
Korpus SYN SYN je souhrnné označení pro korpus, který obsahuje vždy všechny synchronní psané korpusy řady SYN zveřejněné do doby vzniku dané verze korpusu SYN (například SYN verze 3 z roku 2014 tedy zahrnuje korpusy SYN2000, SYN2005, SYN2006PUB, SYN2009PUB, SYN2010 a SYN2013PUB, viz následující tabulka) a který je přitom zpracován nejnovějšími verzemi všech nástrojů (

syn2000

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T16:07:58+00:00
Korpus SYN2000 SYN2000 Pozice Počet pozic (tokenů) 120 908 724 Počet pozic (tokenů) bez interpunkce 100 061 381 Počet slovních tvarů (wordů) 1 763 813 Počet lemmat 891 713 Struktury Počet dokumentů (nikoli opusů) 233 797 Počet vět 7 639 321 Další informace Referenční ANO Reprezentativní ANO (různé textové typy) Rok zveřejnění 2000 Korpus SYN2000 obsahuje 100 milionů textových slov a veřejnosti byl představen v říjnu roku 2000, tedy v době, kdy korpusový přístup k jazy…

syn2005

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T16:07:58+00:00
Korpus SYN2005 Korpus SYN2005 je synchronní reprezentativní korpus psané češtiny obsahující 100 milionů textových slov (tokenů). V těchto základních charakteristikách se tedy shodne se svým předchůdcem, korpusem SYN2000, i následovníkem, korpusem SYN2010. Především mezi korpusy

syn2006pub

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T16:07:59+00:00
Korpus SYN2006PUB Korpus SYN2006PUB je synchronní korpus psané publicistiky o rozsahu 300 milionů textových slov (tokenů). Obsahuje výhradně publicistiku od listopadu 1989 do konce roku 2004, tedy z období, jež pokrývají též korpusy SYN2000 a SYN2005. Všechny korpusy řady SYN jsou však co se zařazených textů týče

syn2009pub

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T16:07:59+00:00
Korpus SYN2009PUB Korpus SYN2009PUB je podobně jako korpus SYN2006PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku od roku 1995 do roku 2007, celková velikost korpusu je 700 milionů textových slov (tokenů). Všechny korpusy řady SYN jsou disjunktní

syn2010

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T16:07:59+00:00
Korpus SYN2010 Korpus SYN2010 je synchronní reprezentativní korpus současné psané češtiny obsahující 100 milionů textových slov (tokenů). Navazuje tak na korpusy SYN2000 a SYN2005 a tvoří s nimi řadu synchronních reprezentativních korpusů pokrývajících tři po sobě jdoucí časová období. Všechny korpusy obsahují rozdílné texty, tedy jsou disjunktní

syn2013pub

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T16:07:59+00:00
Korpus SYN2013PUB Korpus SYN2013PUB je podobně jako korpusy SYN2006PUB a SYN2009PUB synchronní korpus psané publicistiky. Obsahuje výhradně publicistiku z let 2005 až 2009 ve 44 různých titulech, celková velikost korpusu je 935 milionů textových slov (tokenů). Všechny korpusy řady

syn2015

Anonymous (anonymous@undisclosed.example.com) — 2022-08-29T15:23:22+00:00
Korpus SYN2015 Korpus SYN2015 je synchronní reprezentativní a referenční korpus současné psané češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce (tokenů). Navazuje na předchozí korpusy řady SYN (SYN2000, SYN2005 a SYN2010), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, které předcházely jeho zveřejnění; SYN2015 je tak zaměřen na období 2010–2014. Žádný z textů v …

syn2020

Anonymous (anonymous@undisclosed.example.com) — 2023-10-13T15:02:18+00:00
Korpus SYN2020 Korpus SYN2020 je synchronní reprezentativní a referenční korpus současné psané češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce (tokenů). Navazuje na předchozí korpusy řady SYN (SYN2000, SYN2005, SYN2010 a SYN2015), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2020 je tak zaměřen na období 2015–2019. Žádný z…

syn2025

Anonymous (anonymous@undisclosed.example.com) — 2026-01-19T09:11:22+00:00
Korpus SYN2025 Korpus SYN2025 je synchronní reprezentativní a referenční korpus současné psané češtiny, obsahující 100 milionů textových slov, tedy včetně interpunkce (tokenů). Navazuje na předchozí korpusy řady SYN (SYN2000, SYN2005, SYN2010, SYN2015 a SYN2020), vydávané v pětiletých intervalech, a pokrývá spolu s nimi časové období od roku 1989. Každý z korpusů řady SYN zachycuje především jazyk posledních pěti let, která předcházela jeho zveřejnění; SYN2025 je tak zaměřen na období 2020–2024…

totalita

Anonymous (anonymous@undisclosed.example.com) — 2023-02-23T13:54:28+00:00
Totalita: korpus jazyka totality Korpus Totalita je diachronní korpus psané češtiny pokrývající období komunistické diktatury (1948--1989), který sloužil jako materiálová základna pro Slovník komunistické totality. Korpus byl převzat z doprovodného CD ke slovníku, nezměnila se ani uváděná metadata, ani lemmatizace a morfologické značkování. To sice na jednu stranu znamená, že

ukwac

Anonymous (anonymous@undisclosed.example.com) — 2024-08-02T10:38:17+00:00
Korpus ukWaC Korpus webových textů stažených z domény .uk, jeho celkový rozsah je 1,9 miliardy slov. Korpus je slovnědruhově označkován a lemmatizován nástrojem TreeTagger, podrobnější informace o vzniku korpusu a použitém tagsetu najdete zde. Jak citovat

uvod

Anonymous (anonymous@undisclosed.example.com) — 2026-05-25T14:37:47+00:00
Jaké korpusy zpřístupňuje Český národní korpus? Projekt Český národní korpus zpřístupňuje řadu různých korpusů, jejich okomentovaný přehled najdete v sekci týkající se jeho složení. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 4,5 miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných

veda

Anonymous (anonymous@undisclosed.example.com) — 2024-02-25T19:39:08+00:00
Korpus akademické češtiny Korpus akademické češtiny je komplementem Frázové banky akademické češtiny a zahrnuje pouze česky psané nepřekladové texty vydané po roce 2010 ve vědeckých časopisech indexovaných v databázích Web of Science nebo Scopus, případně EBSCO. Dalším kritériem je žánr textu: do korpusu jsou zařazeny jen studie a přehledové články, nikoli tedy například recenze nebo zprávy z konferencí. Texty jsou ve většině případů v prefinální úpravě, tj. neprošly závěrečnou redakční úpravou…

vespa_cz

Anonymous (anonymous@undisclosed.example.com) — 2022-12-21T19:39:01+00:00
VESPA_CZ Žákovský korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1. Žákovský korpus VESPA_CZ vznikl jako součást mezinárodního projektu VESPA (The Varieties of English for Specific Purposes dAtabase ) organizovaného Centrem pro anglickou korpusovou lingvistiku při Katolické univerzitě v Lovani (

zasady_pro_prepis_vyucovacich_hodin

Anonymous (anonymous@undisclosed.example.com) — 2015-05-12T14:02:01+00:00
Sběr nahrávek vyučovacích hodin Pořizování nahrávek vyučovacích hodin probíhalo v letech 2005–2008. Na získávání sond se podíleli především pedagogové. Učitelé nám velmi pomohli se zpracováním nahrávek vyučovacích hodin, zejména s identifikací jednotlivých mluvčích.