Toto je starší verze dokumentu!
Jaké korpusy zpřístupňuje Český národní korpus?
Projekt Český národní korpus zpřístupňuje řadu různých korpusů, jejich okomentovaný přehled najdete v sekci týkající se jeho složení. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 4,5 miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných paralelních korpusech.
Korpusy slouží jak laikům, tak odborníkům jako východisko pro různé druhy empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné registraci, a podléhají běžným zvyklostem pro citování vědeckých pramenů.
Přehled dostupných korpusů
Korpusy psaného jazyka (synchronní) | |||||
---|---|---|---|---|---|
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění1) | charakteristika korpusu |
Obecné korpusy | |||||
SYN (verze 12) | 5 mld. | ✓ | ✓ | 2010-2023 | verzovaný korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |
SYN2020 | 100 mil. | ✓ | ✓ | 2020 | referenční reprezentativní korpus, převažují texty z let 2015–2019 |
SYN2015 | 100 mil. | ✓ | ✓ | 2015 | referenční reprezentativní korpus, převažují texty z let 2010–2014, s novou klasifikací textů |
SYN2013PUB | 935 mil. | ✓ | ✓ | 2013 | referenční korpus publicistických textů z let 2005–2009 |
SYN2010 | 100 mil. | ✓ | ✓ | 2010 | referenční reprezentativní korpus, převažují texty z let 2005–2009 |
SYN2009PUB | 700 mil. | ✓ | ✓ | 2010 | referenční korpus publicistických textů z let 1995–2007 |
SYN2006PUB | 300 mil. | ✓ | ✓ | 2006 | referenční korpus publicistických textů z let 1989–2004 |
SYN2005 | 100 mil. | ✓ | ✓ | 2005 | referenční reprezentativní korpus, převažují texty z let 2000–2004 |
SYN2000 | 100 mil. | ✓ | ✓ | 2000 | referenční reprezentativní korpus, převažují texty z let 1990–1999 |
Webové korpusy | |||||
ONLINE (2. generace) | > 6 mld. | ✓ | ✓ | 2020 | monitorovací korpus českého internetu |
NET (verze 2) | 176 mil. | ✓ | ✓ | 2019 | korpus polooficiální internetové komunikace |
Akviziční korpusy | |||||
CzeSL-man | 100 tis. | ✓ | ✓ | 2016 | žákovský korpus češtiny nerodilých mluvčích s ruční chybovou anotací |
CzeSL-plain | 2 mil. | ✗ | ✗ | 2012 | žákovský korpus češtiny nerodilých mluvčích |
CzeSL-SGT | 960 tis. | ✓ | ✓ | 2014 | žákovský korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací |
CzeSL-SGT-basic | 960 tis. | ✓ | ✓ | 2019 | korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní |
SKRIPT2012 | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací |
VESPA_CZ | 500 tis. | ✓ | ✓ | 2022 | žákovský korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1 |
Autorské korpusy | |||||
Capek | 2,3 mil. | ✓ | ✓ | 2007 | autorský korpus pouze vlastních textů Karla Čapka |
Capek_uplny | 2,5 mil. | ✓ | ✓ | 2007 | autorský korpus všech textů Karla Čapka |
Cep | 420 tis. | ✓ | ✓ | 2015 | autorský korpus prozaických textů Jana Čepa |
KH-DOPISY | 500 tis. | ✗ | ✗ | 2017 | korpus korespondence Karla Havlíčka |
KH-NOVINY | 1 mil. | ✗ | ✗ | 2021 | korpus publicistiky Karla Havlíčka |
ORWELL | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu 1984 |
Specializované korpusy | |||||
Etalon | 1,9 mil. | ✓ | ✓ | 2021 | manuálně anotovaný korpus českých textů |
FicTree | 135 tis. | ✓ | ✓ | 2017 | manuálně syntaktický anotovaný korpus beletrie |
FSC2000 | 100 mil. | ✓ | ✗ | 2004 | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
JEROME | 85 mil. | ✓ | ✓ | 2013 | jednojazyčný srovnatelný korpus pro výzkum překladové češtiny |
Koditex | 10,8 mil. | ✓ | ✓ | 2018 | korpus vytvořený pro účely multidimenzionální analýzy češtiny |
KSK-DOPISY | 800 tis. | ✗ | ✗ | 2006 | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004 |
KSP (verze 2) | 37,5 mil. | ✓ | ✓ | 2022 | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020 |
LINK | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů |
Totalita | 12,9 mil. | ✓ | ✓ | 2010 | korpus psaného jazyka komunistického režimu |
Věda | 15 mil. | ✓ | ✓ | 2023 | korpus odborných textů, komplement Frázové banky akademické češtiny |
Korpusy mluveného jazyka (synchronní) | |||||
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
Obecné korpusy | |||||
ORATOR (verze 2) | 1,2 mil. | ✓ | ✓ | 2019 | referenční korpus monologů s jednoúrovňovou transkripcí |
ORTOFON (verze 3) | 2,4 mil. | ✓ | ✓ | 2017 | referenční reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) |
ORAL (verze 1) | 5,4 mil. | ✓ | ✓ | 2017 | referenční korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
ORAL2013 | 2,8 mil. | ✗ | ✗ | 2013 | referenční reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
ORAL2008 | 1 mil. | ✗ | ✗ | 2008 | referenční sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) |
ORAL2006 | 1 mil. | ✗ | ✗ | 2006 | referenční korpus neformální mluvené češtiny (zahrnuje pouze Čechy) |
Specializované korpusy | |||||
BMK | 490 tis. | ✗ | ✗ | 2002 | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století |
DIALEKT (verze 2) | 223 tis. | ✓ | ✓ | 2017 | referenční nářeční korpus s dvouúrovňovou transkripcí |
Jazyky v migraci | 294 tis. | ✓ | ✓ | 2022 | korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích |
LINDSEI_CZ | 120 tis. | ✗ | ✗ | 2017 | žákovský korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 |
PMK | 675 tis. | ✗ | ✗ | 2001 | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století |
SCHOLA2010 | 790 tis. | ✗ | ✗ | 2010 | korpus vyučovacích hodin |
SPEECHES | 215 tis. | ✓ | ✓ | 2015 | korpus prezidentských projevů |
Parlcorp | 38 mil. | ✓ | ✓ | 2021 | korpus projevů v poslanecké sněmovně (1993-2021) |
Korpus psaného jazyka (diachronní) | |||||
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
DIAKORP (verze 6) | 3,4 mil. | ✗ | ✗ | 2005 | verzovaný korpus diachronní složky ČNK |
OnomOs | 200 tis. | ✓ | ✓ | 2023 | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit |
Korpusy cizojazyčné | |||||
Psané paralelní korpusy (překlady a originály) | |||||
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
InterCorp (verze 16, verze 16ud) | 5,3 mld. | (✓) | (✓) | 2008-2024 | verzovaný paralelní korpus zahrnující kromě češtiny 61 dalších jazyků |
Žalm 77 | 10 tis. | (✓) | (✓) | 2023 | paralelní korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině |
Psané srovnatelné webové korpusy | |||||
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
Aranea | 1 000 mil. | ✓ | ✓ | 2014 | srovnatelné webové korpusy pro řadu jazyků |
Psané jednojazyčné webové korpusy | |||||
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
deWaC | 1 350 mil. | ✓ | ✓ | 2013 | webový korpus němčiny |
frWaC | 1 350 mil. | ✓ | ✓ | 2013 | webový korpus francouzštiny |
itWaC | 1 600 mil. | ✓ | ✓ | 2013 | webový korpus italštiny |
ukWaC | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny |
Psané jednojazyčné speciální korpusy | |||||
baltische_briefe | 45 tis. | ✓ | ✓ | 2024 | korpus textů historických novin Baltische Briefe z let 1949, 1950, 1988, 1991 a 2004 |
CODIT | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 |
DOTKO (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny |
EEBO | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475–1700 z kolekce Early English Books Online |
HOTKO (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny |
lEstRepublicain | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku L’Est Républicain |
NKJP_1M | 1 mil. | ✓ | ✓ | 2018 | ručně označkovaný milionový vzorek korpusu polštiny NKJP (Narodowy korpus języka polskiego) |
OBC | 24 mil. | ✗ | ✓ | 2021 | Old Bailey Corpus, záznamy soudních procesů z let 1720–1913 |
Kdo tvoří Český národní korpus?
Za tvorbou ČNK stojí Ústav Českého národního korpusu ve spolupráci s Ústavem teoretické a komputační lingvistiky; při budování korpusů hojně využívají nástroje vyvinuté Ústavem formální a aplikované lingvistiky.
Jak lze korpusy ČNK využívat?
Pro práci s korpusem slouží specializované nástroje, korpusové manažery/vyhledávače; za nejkomfortnější z nich pro práci s korpusy ČNK v současnosti považujeme nástroj KonText. Pro efektivní práci s korpusy a korpusovými nástroji doporučujeme projít Manuál rozhraní KonText a Kurz práce s ČNK od prvního dotazu až k dotazům pokročilým.