Nastavení

Jaké korpusy zpřístupňuje Český národní korpus?

Projekt Český národní korpus zpřístupňuje řadu různých korpusů, jejich okomentovaný přehled najdete v sekci týkající se jeho složení. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 3,6 miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných paralelních korpusech.

Korpusy slouží jak laikům, tak odborníkům jako východisko pro různé druhy empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné registraci, a podléhají běžným zvyklostem pro citování vědeckých pramenů.

Přehled dostupných korpusů

Korpusy psaného jazyka (synchronní)
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění1) charakteristika korpusu
Obecné korpusy
SYN (verze 5) 3,836 mld. 2010 verzovaný korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty
SYN2015 100 mil. 2015 referenční reprezentativní korpus, převažují texty z let 2010–2014, s novou klasifikací textů
SYN2013PUB 935 mil. 2013 referenční korpus publicistických textů z let 2005-2009
SYN2010 100 mil. 2010 referenční reprezentativní korpus, převažují texty z let 2005–2010
SYN2009PUB 700 mil. 2010 referenční korpus publicistických textů z let 1995–2007
SYN2006PUB 300 mil. 2006 referenční korpus publicistických textů z let 1989–2004
SYN2005 100 mil. 2005 referenční reprezentativní korpus, převažují texty z let 2000–2004
SYN2000 100 mil. 2000 referenční reprezentativní korpus, převažují texty z let 1990–1999
Specializované korpusy
CZESL-PLAIN 2 mil. 2012 žákovský korpus češtiny nerodilých mluvčích
CZESL-SGT 960 tis. 2014 žákovský korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací
FSC2000 100 mil. 2004 upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny
JEROME 85 mil. 2013 jednojazyčný srovnatelný korpus pro výzkum překladové češtiny
KSK-DOPISY 800 tis. 2006 Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004
LINK 1,8 mil. 2010 korpus sestavený z odborných lingvistických textů
ORWELL 80 tis. 2003 ručně označkovaný korpus Orwellova románu 1984
SKRIPT2012 590 tis. 2013 korpus školních písemných prací
Korpusy mluveného jazyka (synchronní)
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění charakteristika korpusu
Obecné korpusy
ORAL2013 2,8 mil. 2013 referenční reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko)
ORAL2008 1 mil. 2008 referenční sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy)
ORAL2006 1 mil. 2006 referenční korpus neformální mluvené češtiny (zahrnuje pouze Čechy)
Specializované korpusy
BMK 490 tis. 2002 Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století
LINDSEI_CZ 120 tis. 2017 žákovský korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1
PMK 675 tis. 2001 Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století
SCHOLA2010 790 tis. 2010 korpus vyučovacích hodin
SPEECHES 215 tis. 2015 korpus prezidentských projevů
Korpus psaného jazyka (diachronní)
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění charakteristika korpusu
DIAKORP (verze 6) 3,4 mil. 2005 verzovaný korpus diachronní složky ČNK
Korpusy cizojazyčné
Psané paralelní korpusy (překlady a originály)
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění charakteristika korpusu
InterCorp (verze 9) 1,46 mld. (✓) (✓) 2008 verzovaný paralelní korpus zahrnující více než 30 jazyků
Psané srovnatelné webové korpusy
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění charakteristika korpusu
Aranea 1 000 mil. 2014 srovnatelné webové korpusy pro řadu jazyků
Psané jednojazyčné webové korpusy
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění charakteristika korpusu
deWaC 1 350 mil. 2013 webový korpus němčiny
frWaC 1 350 mil. 2013 webový korpus francouzštiny
itWaC 1 600 mil. 2013 webový korpus italštiny
ukWaC 1 900 mil. 2013 webový korpus britské angličtiny
Psané jednojazyčné speciální korpusy
DOTKO 12 mil. 2010 korpus dolní lužické srbštiny, převažují texty z let 1848–1933
EEBO 730 mil. 2015 korpus anglických textů z období 1475–1700 z kolekce Early English Books Online
HOTKO 36 mil. 2013 korpus horní lužické srbštiny
lEstRepublicain 73 mil. 2013 korpus textů francouzského regionálního deníku L’Est Républicain

Kdo tvoří Český národní korpus?

Za tvorbou ČNK stojí Ústav Českého národního korpusu ve spolupráci s Ústavem teoretické a komputační lingvistiky; při budování korpusů hojně využívají nástroje vyvinuté Ústavem formální a aplikované lingvistiky.

Jak lze korpusy ČNK využívat?

Pro práci s korpusem slouží specializované nástroje, korpusové manažery/vyhledávače; za nejkomfortnější z nich pro práci s korpusy ČNK v současnosti považujeme nástroj KonText. Pro efektivní práci s korpusy a korpusovými nástroji doporučujeme projít Manuál rozhraní KonText a Kurz práce s ČNK od prvního dotazu až k dotazům pokročilým.


1)
U verzovaných korpusů, jako jsou např. SYN nebo InterCorp, je uveden rok zveřejnění první verze.