Toto je starší verze dokumentu!

Jaké korpusy zpřístupňuje Český národní korpus?

Projekt Český národní korpus zpřístupňuje řadu různých korpusů, jejich okomentovaný přehled najdete v sekci týkající se jeho složení. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 3,6 miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných paralelních korpusech.

Korpusy slouží jak laikům, tak odborníkům jako východisko pro různé druhy empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné registraci, a podléhají běžným zvyklostem pro citování vědeckých pramenů.

Přehled dostupných korpusů

Korpusy psaného jazyka (synchronní)
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění¹⁾	charakteristika korpusu
Obecné korpusy
SYN (verze 4)	3,626 mld.	✓	✓	2010	verzovaný korpus, spojení všech synchronních psaných korpusů řady SYN
SYN2015	100 mil.	✓	✓	2015	referenční reprezentativní korpus, převažují texty z let 2010–2014, s novou klasifikací textů
SYN2013PUB	935 mil.	✓	✓	2013	referenční korpus publicistických textů z let 2005-2009
SYN2010	100 mil.	✓	✓	2010	referenční reprezentativní korpus, převažují texty z let 2005–2010
SYN2009PUB	700 mil.	✓	✓	2010	referenční korpus publicistických textů z let 1995–2007
SYN2006PUB	300 mil.	✓	✓	2006	referenční korpus publicistických textů z let 1989–2004
SYN2005	100 mil.	✓	✓	2005	referenční reprezentativní korpus, převažují texty z let 2000–2004
SYN2000	100 mil.	✓	✓	2000	referenční reprezentativní korpus, převažují texty z let 1990–1999
Specializované korpusy
FSC2000	100 mil.	✓	✗	2004	upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny
CZESL-PLAIN	2 mil.	✗	✗	2012	žákovský korpus češtiny nerodilých mluvčích
CZESL-SGT	960 tis.	✓	✓	2014	žákovský korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací
JEROME	85 mil.	✓	✓	2013	jednojazyčný srovnatelný korpus pro výzkum překladové češtiny
KSK-DOPISY	800 tis.	✗	✗	2006	Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004
LINK	1,8 mil.	✓	✓	2010	korpus sestavený z odborných lingvistických textů
ORWELL	80 tis.	✓	✓	2003	ručně označkovaný korpus Orwellova románu 1984
SKRIPT2012	590 tis.	✓	✓	2013	korpus školních písemných prací
Korpusy mluveného jazyka (synchronní)
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění	charakteristika korpusu
Obecné korpusy
ORAL2013	2,8 mil.	✗	✗	2013	referenční reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko)
ORAL2008	1 mil.	✗	✗	2008	referenční sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy)
ORAL2006	1 mil.	✗	✗	2006	referenční korpus neformální mluvené češtiny (zahrnuje pouze Čechy)
Specializované korpusy
BMK	490 tis.	✗	✗	2002	Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století
PMK	675 tis.	✗	✗	2001	Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století
SCHOLA2010	790 tis.	✗	✗	2010	korpus vyučovacích hodin
SPEECHES	215 tis.	✓	✓	2015	korpus prezidentských projevů
Korpus psaného jazyka (diachronní)
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění	charakteristika korpusu
DIAKORP	3,4 mil.	✗	✗	2005	verzovaný korpus diachronní složky ČNK
Korpusy cizojazyčné
Psané paralelní korpusy (překlady a originály)
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění	charakteristika korpusu
InterCorp (verze 9)	1,46 mld.	(✓)	(✓)	2008	verzovaný paralelní korpus zahrnující více než 30 jazyků
Psané srovnatelné webové korpusy
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění	charakteristika korpusu
Aranea	1 000 mil.	✓	✓	2014	srovnatelné webové korpusy pro řadu jazyků
Psané jednojazyčné webové korpusy
korpus	velikost (počet slov)	lemmatizace	morfologické značky	rok zveřejnění	charakteristika korpusu
deWaC	1 350 mil.	✓	✓	2013	webový korpus němčiny
frWaC	1 350 mil.	✓	✓	2013	webový korpus francouzštiny
itWaC	1 600 mil.	✓	✓	2013	webový korpus italštiny
ukWaC	1 900 mil.	✓	✓	2013	webový korpus britské angličtiny
Psané jednojazyčné speciální korpusy
DOTKO	12 mil.	✗	✗	2010	korpus dolní lužické srbštiny, převažují texty z let 1848–1933
EEBO	730 mil.	✗	✗	2015	korpus anglických textů z období 1475-1700 století z kolekce Early English Books Online
HOTKO	36 mil.	✗	✗	2013	korpus horní lužické srbštiny
lEstRepublicain	73 mil.	✓	✓	2013	korpus textů francouzského regionálního deníku L’Est Républicain

Kdo tvoří Český národní korpus?

Za tvorbou ČNK stojí Ústav Českého národního korpusu ve spolupráci s Ústavem teoretické a komputační lingvistiky; při budování korpusů hojně využívají nástroje vyvinuté Ústavem formální a aplikované lingvistiky.

Jak lze korpusy ČNK využívat?

Pro práci s korpusem slouží specializované nástroje, korpusové manažery/vyhledávače; za nejkomfortnější z nich pro práci s korpusy ČNK v současnosti považujeme nástroj KonText. Pro efektivní práci s korpusy a korpusovými nástroji doporučujeme projít Manuál rozhraní KonText a Kurz práce s ČNK od prvního dotazu až k dotazům pokročilým.

Manuál rozhraní KonText • Menu: Nový dotaz • Jak začít pracovat s Českým národním korpusem • Kurz práce s korpusem v 7 lekcích

¹⁾

U verzovaných korpusů, jako jsou např. SYN nebo InterCorp, a korpusů nereferenčních je uveden rok zveřejnění první verze.

Historie: • uvod

Jaké korpusy zpřístupňuje Český národní korpus?

Přehled dostupných korpusů

Kdo tvoří Český národní korpus?

Jak lze korpusy ČNK využívat?

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence