Toto je starší verze dokumentu!
Jaké korpusy zpřístupňuje Český národní korpus?
Projekt Český národní korpus zpřístupňuje řadu různých korpusů, jejich okomentovaný přehled najdete v sekci týkající se jeho složení. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 4,5 miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných paralelních korpusech.
Korpusy slouží jak laikům, tak odborníkům jako východisko pro různé druhy empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné registraci, a podléhají běžným zvyklostem pro citování vědeckých pramenů.
Přehled dostupných korpusů
| Korpusy psaného jazyka (synchronní) | |||||
|---|---|---|---|---|---|
| korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění1) | charakteristika korpusu |
| Obecné korpusy | |||||
| SYN (verze 12) | 5 mld. | ✓ | ✓ | 2010-2023 | verzovaný korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |
| SYN2020 | 100 mil. | ✓ | ✓ | 2020 | referenční reprezentativní korpus, převažují texty z let 2015–2019 |
| SYN2015 | 100 mil. | ✓ | ✓ | 2015 | referenční reprezentativní korpus, převažují texty z let 2010–2014, s novou klasifikací textů |
| SYN2013PUB | 935 mil. | ✓ | ✓ | 2013 | referenční korpus publicistických textů z let 2005–2009 |
| SYN2010 | 100 mil. | ✓ | ✓ | 2010 | referenční reprezentativní korpus, převažují texty z let 2005–2009 |
| SYN2009PUB | 700 mil. | ✓ | ✓ | 2010 | referenční korpus publicistických textů z let 1995–2007 |
| SYN2006PUB | 300 mil. | ✓ | ✓ | 2006 | referenční korpus publicistických textů z let 1989–2004 |
| SYN2005 | 100 mil. | ✓ | ✓ | 2005 | referenční reprezentativní korpus, převažují texty z let 2000–2004 |
| SYN2000 | 100 mil. | ✓ | ✓ | 2000 | referenční reprezentativní korpus, převažují texty z let 1990–1999 |
| Webové korpusy | |||||
| ONLINE (2. generace) | > 6 mld. | ✓ | ✓ | 2020 | monitorovací korpus českého internetu |
| NET (verze 2) | 176 mil. | ✓ | ✓ | 2019 | korpus polooficiální internetové komunikace |
| Akviziční korpusy | |||||
| CzeSL-man | 100 tis. | ✓ | ✓ | 2016 | žákovský korpus češtiny nerodilých mluvčích s ruční chybovou anotací |
| CzeSL-plain | 2 mil. | ✗ | ✗ | 2012 | žákovský korpus češtiny nerodilých mluvčích |
| CzeSL-SGT | 960 tis. | ✓ | ✓ | 2014 | žákovský korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací |
| CzeSL-SGT-basic | 960 tis. | ✓ | ✓ | 2019 | korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní |
| SKRIPT2012 | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací |
| VESPA_CZ | 500 tis. | ✓ | ✓ | 2022 | žákovský korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1 |
| Autorské korpusy | |||||
| Capek | 2,3 mil. | ✓ | ✓ | 2007 | autorský korpus pouze vlastních textů Karla Čapka |
| Capek_uplny | 2,5 mil. | ✓ | ✓ | 2007 | autorský korpus všech textů Karla Čapka |
| Cep | 420 tis. | ✓ | ✓ | 2015 | autorský korpus prozaických textů Jana Čepa |
| KH-DOPISY | 500 tis. | ✗ | ✗ | 2017 | korpus korespondence Karla Havlíčka |
| KH-NOVINY | 1 mil. | ✗ | ✗ | 2021 | korpus publicistiky Karla Havlíčka |
| ORWELL | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu 1984 |
| Specializované korpusy | |||||
| Etalon | 1,9 mil. | ✓ | ✓ | 2021 | manuálně anotovaný korpus českých textů |
| FicTree | 135 tis. | ✓ | ✓ | 2017 | manuálně syntaktický anotovaný korpus beletrie |
| FSC2000 | 100 mil. | ✓ | ✗ | 2004 | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
| JEROME | 85 mil. | ✓ | ✓ | 2013 | jednojazyčný srovnatelný korpus pro výzkum překladové češtiny |
| Koditex | 10,8 mil. | ✓ | ✓ | 2018 | korpus vytvořený pro účely multidimenzionální analýzy češtiny |
| KSK-DOPISY | 800 tis. | ✗ | ✗ | 2006 | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004 |
| KSP (verze 2) | 37,5 mil. | ✓ | ✓ | 2022 | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020 |
| LINK | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů |
| Totalita | 12,9 mil. | ✓ | ✓ | 2010 | korpus psaného jazyka komunistického režimu |
| Věda | 15 mil. | ✓ | ✓ | 2023 | korpus odborných textů, komplement Frázové banky akademické češtiny |
| Korpusy mluveného jazyka (synchronní) | |||||
| korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
| Obecné korpusy | |||||
| ORATOR (verze 2) | 1,2 mil. | ✓ | ✓ | 2019 | referenční korpus monologů s jednoúrovňovou transkripcí |
| ORTOFON (verze 3) | 2,4 mil. | ✓ | ✓ | 2017 | referenční reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) |
| ORAL (verze 1) | 5,4 mil. | ✓ | ✓ | 2017 | referenční korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
| ORAL2013 | 2,8 mil. | ✗ | ✗ | 2013 | referenční reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
| ORAL2008 | 1 mil. | ✗ | ✗ | 2008 | referenční sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) |
| ORAL2006 | 1 mil. | ✗ | ✗ | 2006 | referenční korpus neformální mluvené češtiny (zahrnuje pouze Čechy) |
| Specializované korpusy | |||||
| BMK | 490 tis. | ✗ | ✗ | 2002 | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století |
| DIALEKT (verze 2) | 223 tis. | ✓ | ✓ | 2017 | referenční nářeční korpus s dvouúrovňovou transkripcí |
| Jazyky v migraci | 294 tis. | ✓ | ✓ | 2022 | korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích |
| LINDSEI_CZ | 120 tis. | ✗ | ✗ | 2017 | žákovský korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 |
| PMK | 675 tis. | ✗ | ✗ | 2001 | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století |
| SCHOLA2010 | 790 tis. | ✗ | ✗ | 2010 | korpus vyučovacích hodin |
| SPEECHES | 215 tis. | ✓ | ✓ | 2015 | korpus prezidentských projevů |
| Parlcorp | 38 mil. | ✓ | ✓ | 2021 | korpus projevů v poslanecké sněmovně (1993-2021) |
| Korpus psaného jazyka (diachronní) | |||||
| korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
| DIAKORP (verze 6) | 3,4 mil. | ✗ | ✗ | 2005 | verzovaný korpus diachronní složky ČNK |
| OnomOs | 200 tis. | ✓ | ✓ | 2023 | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit |
| Korpusy cizojazyčné | |||||
| Psané paralelní korpusy (překlady a originály) | |||||
| korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
| InterCorp (verze 13ud, verze 15, verze 16) | 5,3 mld. | (✓) | (✓) | 2008-2023 | verzovaný paralelní korpus zahrnující kromě češtiny 61 dalších jazyků |
| Žalm 77 | 10 tis. | (✓) | (✓) | 2023 | paralelní korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině |
| Psané srovnatelné webové korpusy | |||||
| korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
| Aranea | 1 000 mil. | ✓ | ✓ | 2014 | srovnatelné webové korpusy pro řadu jazyků |
| Psané jednojazyčné webové korpusy | |||||
| korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
| deWaC | 1 350 mil. | ✓ | ✓ | 2013 | webový korpus němčiny |
| frWaC | 1 350 mil. | ✓ | ✓ | 2013 | webový korpus francouzštiny |
| itWaC | 1 600 mil. | ✓ | ✓ | 2013 | webový korpus italštiny |
| ukWaC | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny |
| Psané jednojazyčné speciální korpusy | |||||
| CODIT | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 |
| DOTKO (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny |
| EEBO | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475–1700 z kolekce Early English Books Online |
| HOTKO (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny |
| lEstRepublicain | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku L’Est Républicain |
| NKJP_1M | 1 mil. | ✓ | ✓ | 2018 | ručně označkovaný milionový vzorek korpusu polštiny NKJP (Narodowy korpus języka polskiego) |
| OBC | 24 mil. | ✗ | ✓ | 2021 | Old Bailey Corpus, záznamy soudních procesů z let 1720–1913 |
Kdo tvoří Český národní korpus?
Za tvorbou ČNK stojí Ústav Českého národního korpusu ve spolupráci s Ústavem teoretické a komputační lingvistiky; při budování korpusů hojně využívají nástroje vyvinuté Ústavem formální a aplikované lingvistiky.
Jak lze korpusy ČNK využívat?
Pro práci s korpusem slouží specializované nástroje, korpusové manažery/vyhledávače; za nejkomfortnější z nich pro práci s korpusy ČNK v současnosti považujeme nástroj KonText. Pro efektivní práci s korpusy a korpusovými nástroji doporučujeme projít Manuál rozhraní KonText a Kurz práce s ČNK od prvního dotazu až k dotazům pokročilým.