Toto je starší verze dokumentu!

Jaké korpusy zpřístupňuje Český národní korpus?

Projekt Český národní korpus zpřístupňuje řadu různých korpusů, jejich okomentovaný přehled najdete v sekci týkající se jeho složení. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 4,5 miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných paralelních korpusech.

Korpusy slouží jak laikům, tak odborníkům jako východisko pro různé druhy empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné registraci, a podléhají běžným zvyklostem pro citování vědeckých pramenů.

Přehled dostupných korpusů

Korpusy psaného jazyka (synchronní)
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění¹⁾	charakteristika korpusu
Obecné korpusy
SYN (verze 12)	5 mld.	✓	✓	2010-2023	verzovaný korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty
SYN2020	100 mil.	✓	✓	2020	referenční reprezentativní korpus, převažují texty z let 2015–2019
SYN2015	100 mil.	✓	✓	2015	referenční reprezentativní korpus, převažují texty z let 2010–2014, s novou klasifikací textů
SYN2013PUB	935 mil.	✓	✓	2013	referenční korpus publicistických textů z let 2005–2009
SYN2010	100 mil.	✓	✓	2010	referenční reprezentativní korpus, převažují texty z let 2005–2009
SYN2009PUB	700 mil.	✓	✓	2010	referenční korpus publicistických textů z let 1995–2007
SYN2006PUB	300 mil.	✓	✓	2006	referenční korpus publicistických textů z let 1989–2004
SYN2005	100 mil.	✓	✓	2005	referenční reprezentativní korpus, převažují texty z let 2000–2004
SYN2000	100 mil.	✓	✓	2000	referenční reprezentativní korpus, převažují texty z let 1990–1999
Webové korpusy
ONLINE (2. generace)	> 6 mld.	✓	✓	2020	monitorovací korpus českého internetu
NET (verze 2)	176 mil.	✓	✓	2019	korpus polooficiální internetové komunikace
Akviziční korpusy
CzeSL-man	100 tis.	✓	✓	2016	žákovský korpus češtiny nerodilých mluvčích s ruční chybovou anotací
CzeSL-plain	2 mil.	✗	✗	2012	žákovský korpus češtiny nerodilých mluvčích
CzeSL-SGT	960 tis.	✓	✓	2014	žákovský korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací
CzeSL-SGT-basic	960 tis.	✓	✓	2019	korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní
SKRIPT2012	590 tis.	✓	✓	2013	korpus školních písemných prací
VESPA_CZ	500 tis.	✓	✓	2022	žákovský korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1
Autorské korpusy
Capek	2,3 mil.	✓	✓	2007	autorský korpus pouze vlastních textů Karla Čapka
Capek_uplny	2,5 mil.	✓	✓	2007	autorský korpus všech textů Karla Čapka
Cep	420 tis.	✓	✓	2015	autorský korpus prozaických textů Jana Čepa
KH-DOPISY	500 tis.	✗	✗	2017	korpus korespondence Karla Havlíčka
KH-NOVINY	1 mil.	✗	✗	2021	korpus publicistiky Karla Havlíčka
ORWELL	80 tis.	✓	✓	2003	ručně označkovaný korpus Orwellova románu 1984
Specializované korpusy
Etalon	1,9 mil.	✓	✓	2021	manuálně anotovaný korpus českých textů
FicTree	135 tis.	✓	✓	2017	manuálně syntaktický anotovaný korpus beletrie
FSC2000	100 mil.	✓	✗	2004	upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny
JEROME	85 mil.	✓	✓	2013	jednojazyčný srovnatelný korpus pro výzkum překladové češtiny
Koditex	10,8 mil.	✓	✓	2018	korpus vytvořený pro účely multidimenzionální analýzy češtiny
KSK-DOPISY	800 tis.	✗	✗	2006	korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004
KSP (verze 2)	37,5 mil.	✓	✓	2022	korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020
LINK	1,8 mil.	✓	✓	2010	korpus sestavený z odborných lingvistických textů
Totalita	12,9 mil.	✓	✓	2010	korpus psaného jazyka komunistického režimu
Věda	15 mil.	✓	✓	2023	korpus odborných textů, komplement Frázové banky akademické češtiny
Korpusy mluveného jazyka (synchronní)
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění	charakteristika korpusu
Obecné korpusy
ORATOR (verze 2)	1,2 mil.	✓	✓	2019	referenční korpus monologů s jednoúrovňovou transkripcí
ORTOFON (verze 3)	2,4 mil.	✓	✓	2017	referenční reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko)
ORAL (verze 1)	5,4 mil.	✓	✓	2017	referenční korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko)
ORAL2013	2,8 mil.	✗	✗	2013	referenční reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko)
ORAL2008	1 mil.	✗	✗	2008	referenční sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy)
ORAL2006	1 mil.	✗	✗	2006	referenční korpus neformální mluvené češtiny (zahrnuje pouze Čechy)
Specializované korpusy
BMK	490 tis.	✗	✗	2002	Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století
DIALEKT (verze 2)	223 tis.	✓	✓	2017	referenční nářeční korpus s dvouúrovňovou transkripcí
Jazyky v migraci	294 tis.	✓	✓	2022	korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích
LINDSEI_CZ	120 tis.	✗	✗	2017	žákovský korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1
PMK	675 tis.	✗	✗	2001	Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století
SCHOLA2010	790 tis.	✗	✗	2010	korpus vyučovacích hodin
SPEECHES	215 tis.	✓	✓	2015	korpus prezidentských projevů
Parlcorp	38 mil.	✓	✓	2021	korpus projevů v poslanecké sněmovně (1993-2021)
Korpus psaného jazyka (diachronní)
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění	charakteristika korpusu
DIAKORP (verze 6)	3,4 mil.	✗	✗	2005	verzovaný korpus diachronní složky ČNK
OnomOs	200 tis.	✓	✓	2023	korpus vybraných čísel (Rudého) Práva s anotací jmenných entit
Korpusy cizojazyčné
Psané paralelní korpusy (překlady a originály)
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění	charakteristika korpusu
InterCorp (verze 13ud, verze 15, verze 16)	5,3 mld.	(✓)	(✓)	2008-2023	verzovaný paralelní korpus zahrnující kromě češtiny 61 dalších jazyků
Žalm 77	10 tis.	(✓)	(✓)	2023	paralelní korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině
Psané srovnatelné webové korpusy
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění	charakteristika korpusu
Aranea	1 000 mil.	✓	✓	2014	srovnatelné webové korpusy pro řadu jazyků
Psané jednojazyčné webové korpusy
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění	charakteristika korpusu
deWaC	1 350 mil.	✓	✓	2013	webový korpus němčiny
frWaC	1 350 mil.	✓	✓	2013	webový korpus francouzštiny
itWaC	1 600 mil.	✓	✓	2013	webový korpus italštiny
ukWaC	1 900 mil.	✓	✓	2013	webový korpus britské angličtiny
Psané jednojazyčné speciální korpusy
CODIT	27 mil.	✗	✗	2021	diachronní korpus italštiny pokrývající období od 13. století do roku 1947
DOTKO (verze 2)	15,5 mil.	✓	✗	2010	korpus dolní lužické srbštiny
EEBO	730 mil.	✗	✗	2015	korpus anglických textů z období 1475–1700 z kolekce Early English Books Online
HOTKO (verze 2)	36 mil.	✗	✗	2013	korpus horní lužické srbštiny
lEstRepublicain	73 mil.	✓	✓	2013	korpus textů francouzského regionálního deníku L’Est Républicain
NKJP_1M	1 mil.	✓	✓	2018	ručně označkovaný milionový vzorek korpusu polštiny NKJP (Narodowy korpus języka polskiego)
OBC	24 mil.	✗	✓	2021	Old Bailey Corpus, záznamy soudních procesů z let 1720–1913

Kdo tvoří Český národní korpus?

Za tvorbou ČNK stojí Ústav Českého národního korpusu ve spolupráci s Ústavem teoretické a komputační lingvistiky; při budování korpusů hojně využívají nástroje vyvinuté Ústavem formální a aplikované lingvistiky.

Jak lze korpusy ČNK využívat?

Pro práci s korpusem slouží specializované nástroje, korpusové manažery/vyhledávače; za nejkomfortnější z nich pro práci s korpusy ČNK v současnosti považujeme nástroj KonText. Pro efektivní práci s korpusy a korpusovými nástroji doporučujeme projít Manuál rozhraní KonText a Kurz práce s ČNK od prvního dotazu až k dotazům pokročilým.

Manuál rozhraní KonText • Menu: Nový dotaz • Jak začít pracovat s Českým národním korpusem • Kurz práce s korpusem v 7 lekcích

¹⁾

U verzovaných korpusů, jako jsou např. SYN nebo InterCorp, je uveden také rok zveřejnění první verze.

Historie: • zaciname • struktura-capek • zobrazeni_dotazu • morfio • pokrocile_dotazy • skript2012-prepis • syn2020 • citace • intercorp • uvod