AplikaceAplikace
Nastavení

Jaké korpusy zpřístupňuje Český národní korpus?

Projekt Český národní korpus zpřístupňuje řadu různých korpusů, jejich okomentovaný přehled najdete v sekci týkající se jeho složení. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 4,5 miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných paralelních korpusech.

Korpusy slouží jak laikům, tak odborníkům jako východisko pro různé druhy empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné registraci, a podléhají běžným zvyklostem pro citování vědeckých pramenů.

Přehled dostupných korpusů

Korpusy psaného jazyka (synchronní)
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění1) charakteristika korpusu
Obecné korpusy
SYN (verze 12) 5 mld. 2010-2023 verzovaný korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty
SYN2020 100 mil. 2020 referenční reprezentativní korpus, převažují texty z let 2015–2019
SYN2015 100 mil. 2015 referenční reprezentativní korpus, převažují texty z let 2010–2014, s novou klasifikací textů
SYN2013PUB 935 mil. 2013 referenční korpus publicistických textů z let 2005–2009
SYN2010 100 mil. 2010 referenční reprezentativní korpus, převažují texty z let 2005–2009
SYN2009PUB 700 mil. 2010 referenční korpus publicistických textů z let 1995–2007
SYN2006PUB 300 mil. 2006 referenční korpus publicistických textů z let 1989–2004
SYN2005 100 mil. 2005 referenční reprezentativní korpus, převažují texty z let 2000–2004
SYN2000 100 mil. 2000 referenční reprezentativní korpus, převažují texty z let 1990–1999
Webové korpusy
ONLINE (2. generace) > 6 mld. 2020 monitorovací korpus českého internetu
NET (verze 2) 176 mil. 2019 korpus polooficiální internetové komunikace
Akviziční korpusy
CzeSL-man 100 tis. 2016 žákovský korpus češtiny nerodilých mluvčích s ruční chybovou anotací
CzeSL-plain 2 mil. 2012 žákovský korpus češtiny nerodilých mluvčích
CzeSL-SGT 960 tis. 2014 žákovský korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací
CzeSL-SGT-basic 960 tis. 2019 korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní
SKRIPT2012 590 tis. 2013 korpus školních písemných prací
VESPA_CZ 500 tis. 2022 žákovský korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1
Autorské korpusy
Capek 2,3 mil. 2007 autorský korpus pouze vlastních textů Karla Čapka
Capek_uplny 2,5 mil. 2007 autorský korpus všech textů Karla Čapka
Cep 420 tis. 2015 autorský korpus prozaických textů Jana Čepa
KH-DOPISY 500 tis. 2017 korpus korespondence Karla Havlíčka
KH-NOVINY 1 mil. 2021 korpus publicistiky Karla Havlíčka
ORWELL 80 tis. 2003 ručně označkovaný korpus Orwellova románu 1984
Specializované korpusy
Etalon 1,9 mil. 2021 manuálně anotovaný korpus českých textů
FicTree 135 tis. 2017 manuálně syntaktický anotovaný korpus beletrie
FSC2000 100 mil. 2004 upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny
JEROME 85 mil. 2013 jednojazyčný srovnatelný korpus pro výzkum překladové češtiny
Koditex 10,8 mil. 2018 korpus vytvořený pro účely multidimenzionální analýzy češtiny
KSK-DOPISY 800 tis. 2006 korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004
KSP 35,5 mil. 2022 korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020
LINK 1,8 mil. 2010 korpus sestavený z odborných lingvistických textů
Totalita 12,9 mil. 2010 korpus psaného jazyka komunistického režimu
Věda 15 mil. 2023 korpus odborných textů, komplement Frázové banky akademické češtiny
Korpusy mluveného jazyka (synchronní)
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění charakteristika korpusu
Obecné korpusy
ORATOR (verze 2) 1,2 mil. 2019 referenční korpus monologů s jednoúrovňovou transkripcí
ORTOFON (verze 2) 2,1 mil. 2017 referenční reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko)
ORAL (verze 1) 5,4 mil. 2017 referenční korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko)
ORAL2013 2,8 mil. 2013 referenční reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko)
ORAL2008 1 mil. 2008 referenční sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy)
ORAL2006 1 mil. 2006 referenční korpus neformální mluvené češtiny (zahrnuje pouze Čechy)
Specializované korpusy
BMK 490 tis. 2002 Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století
DIALEKT (verze 2) 223 tis. 2017 referenční nářeční korpus s dvouúrovňovou transkripcí
Jazyky v migraci 294 tis. 2022 korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích
LINDSEI_CZ 120 tis. 2017 žákovský korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1
PMK 675 tis. 2001 Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století
SCHOLA2010 790 tis. 2010 korpus vyučovacích hodin
SPEECHES 215 tis. 2015 korpus prezidentských projevů
Parlcorp 38 mil. 2021 korpus projevů v poslanecké sněmovně (1993-2021)
Korpus psaného jazyka (diachronní)
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění charakteristika korpusu
DIAKORP (verze 6) 3,4 mil. 2005 verzovaný korpus diachronní složky ČNK
OnomOs 200 tis. 2023 korpus vybraných čísel (Rudého) Práva s anotací jmenných entit
Korpusy cizojazyčné
Psané paralelní korpusy (překlady a originály)
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění charakteristika korpusu
InterCorp (verze 13ud, verze 15, verze 16) 5,3 mld. (✓) (✓) 2008-2023 verzovaný paralelní korpus zahrnující kromě češtiny 61 dalších jazyků
Žalm 77 10 tis. (✓) (✓) 2023 paralelní korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině
Psané srovnatelné webové korpusy
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění charakteristika korpusu
Aranea 1 000 mil. 2014 srovnatelné webové korpusy pro řadu jazyků
Psané jednojazyčné webové korpusy
korpus velikost (počet slov) lemmatizace morfologické značky rok zveřejnění charakteristika korpusu
deWaC 1 350 mil. 2013 webový korpus němčiny
frWaC 1 350 mil. 2013 webový korpus francouzštiny
itWaC 1 600 mil. 2013 webový korpus italštiny
ukWaC 1 900 mil. 2013 webový korpus britské angličtiny
Psané jednojazyčné speciální korpusy
CODIT 27 mil. 2021 diachronní korpus italštiny pokrývající období od 13. století do roku 1947
DOTKO (verze 2) 15,5 mil. 2010 korpus dolní lužické srbštiny
EEBO 730 mil. 2015 korpus anglických textů z období 1475–1700 z kolekce Early English Books Online
HOTKO (verze 2) 36 mil. 2013 korpus horní lužické srbštiny
lEstRepublicain 73 mil. 2013 korpus textů francouzského regionálního deníku L’Est Républicain
NKJP_1M 1 mil. 2018 ručně označkovaný milionový vzorek korpusu polštiny NKJP (Narodowy korpus języka polskiego)
OBC 24 mil. 2021 Old Bailey Corpus, záznamy soudních procesů z let 1720–1913

Kdo tvoří Český národní korpus?

Za tvorbou ČNK stojí Ústav Českého národního korpusu ve spolupráci s Ústavem teoretické a komputační lingvistiky; při budování korpusů hojně využívají nástroje vyvinuté Ústavem formální a aplikované lingvistiky.

Jak lze korpusy ČNK využívat?

Pro práci s korpusem slouží specializované nástroje, korpusové manažery/vyhledávače; za nejkomfortnější z nich pro práci s korpusy ČNK v současnosti považujeme nástroj KonText. Pro efektivní práci s korpusy a korpusovými nástroji doporučujeme projít Manuál rozhraní KonText a Kurz práce s ČNK od prvního dotazu až k dotazům pokročilým.


1)
U verzovaných korpusů, jako jsou např. SYN nebo InterCorp, je uveden také rok zveřejnění první verze.