Toto je starší verze dokumentu!
Jaké korpusy zpřístupňuje Český národní korpus?
Projekt Český národní korpus zpřístupňuje řadu různých korpusů, jejich okomentovaný přehled najdete v sekci týkající se jeho složení. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 3,6 miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných paralelních korpusech.
Korpusy slouží jak laikům, tak odborníkům jako východisko pro různé druhy empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné registraci, a podléhají běžným zvyklostem pro citování vědeckých pramenů.
Přehled dostupných korpusů
Korpusy psaného jazyka (synchronní) | |||||
---|---|---|---|---|---|
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění1) | charakteristika korpusu |
Obecné korpusy | |||||
SYN (verze 4) | 3,626 mld. | ✓ | ✓ | 2010 | verzovaný korpus, spojení všech synchronních psaných korpusů řady SYN |
SYN2015 | 100 mil. | ✓ | ✓ | 2015 | referenční reprezentativní korpus, převažují texty z let 2010–2014, s novou klasifikací textů |
SYN2013PUB | 935 mil. | ✓ | ✓ | 2013 | referenční korpus publicistických textů z let 2005-2009 |
SYN2010 | 100 mil. | ✓ | ✓ | 2010 | referenční reprezentativní korpus, převažují texty z let 2005–2010 |
SYN2009PUB | 700 mil. | ✓ | ✓ | 2010 | referenční korpus publicistických textů z let 1995–2007 |
SYN2006PUB | 300 mil. | ✓ | ✓ | 2006 | referenční korpus publicistických textů z let 1989–2004 |
SYN2005 | 100 mil. | ✓ | ✓ | 2005 | referenční reprezentativní korpus, převažují texty z let 2000–2004 |
SYN2000 | 100 mil. | ✓ | ✓ | 2000 | referenční reprezentativní korpus, převažují texty z let 1990–1999 |
Specializované korpusy | |||||
FSC2000 | 100 mil. | ✓ | ✗ | 2004 | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
CZESL-PLAIN | 2 mil. | ✗ | ✗ | 2012 | žákovský korpus češtiny nerodilých mluvčích |
CZESL-SGT | 960 tis. | ✓ | ✓ | 2014 | žákovský korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací |
JEROME | 85 mil. | ✓ | ✓ | 2013 | jednojazyčný srovnatelný korpus pro výzkum překladové češtiny |
KSK-DOPISY | 800 tis. | ✗ | ✗ | 2006 | Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004 |
LINK | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů |
ORWELL | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu 1984 |
SKRIPT2012 | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací |
Korpusy mluveného jazyka (synchronní) | |||||
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
Obecné korpusy | |||||
ORAL2013 | 2,8 mil. | ✗ | ✗ | 2013 | referenční reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
ORAL2008 | 1 mil. | ✗ | ✗ | 2008 | referenční sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) |
ORAL2006 | 1 mil. | ✗ | ✗ | 2006 | referenční korpus neformální mluvené češtiny (zahrnuje pouze Čechy) |
Specializované korpusy | |||||
BMK | 490 tis. | ✗ | ✗ | 2002 | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století |
PMK | 675 tis. | ✗ | ✗ | 2001 | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století |
SCHOLA2010 | 790 tis. | ✗ | ✗ | 2010 | korpus vyučovacích hodin |
SPEECHES | 215 tis. | ✓ | ✓ | 2015 | korpus prezidentských projevů |
Korpus psaného jazyka (diachronní) | |||||
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
DIAKORP | 3,4 mil. | ✗ | ✗ | 2005 | verzovaný korpus diachronní složky ČNK |
Korpusy cizojazyčné | |||||
Psané paralelní korpusy (překlady a originály) | |||||
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
InterCorp (verze 9) | 1,46 mld. | (✓) | (✓) | 2008 | verzovaný paralelní korpus zahrnující více než 30 jazyků |
Psané srovnatelné webové korpusy | |||||
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
Aranea | 1 000 mil. | ✓ | ✓ | 2014 | srovnatelné webové korpusy pro řadu jazyků |
Psané jednojazyčné webové korpusy | |||||
korpus | velikost (počet slov) | lemmatizace | morfologické značky | rok zveřejnění | charakteristika korpusu |
deWaC | 1 350 mil. | ✓ | ✓ | 2013 | webový korpus němčiny |
frWaC | 1 350 mil. | ✓ | ✓ | 2013 | webový korpus francouzštiny |
itWaC | 1 600 mil. | ✓ | ✓ | 2013 | webový korpus italštiny |
ukWaC | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny |
Psané jednojazyčné speciální korpusy | |||||
DOTKO | 12 mil. | ✗ | ✗ | 2010 | korpus dolní lužické srbštiny, převažují texty z let 1848–1933 |
EEBO | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475-1700 století z kolekce Early English Books Online |
HOTKO | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny |
lEstRepublicain | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku L’Est Républicain |
Kdo tvoří Český národní korpus?
Za tvorbou ČNK stojí Ústav Českého národního korpusu ve spolupráci s Ústavem teoretické a komputační lingvistiky; při budování korpusů hojně využívají nástroje vyvinuté Ústavem formální a aplikované lingvistiky.
Jak lze korpusy ČNK využívat?
Pro práci s korpusem slouží specializované nástroje, korpusové manažery/vyhledávače; za nejkomfortnější z nich pro práci s korpusy ČNK v současnosti považujeme nástroj KonText. Pro efektivní práci s korpusy a korpusovými nástroji doporučujeme projít Manuál rozhraní KonText a Kurz práce s ČNK od prvního dotazu až k dotazům pokročilým.