Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:uvod [2017/09/15 08:05] – [Přehled dostupných korpusů] michalkren | cnk:uvod [2023/10/11 17:50] – [Přehled dostupných korpusů] alexandrrosen |
---|
====== Jaké korpusy zpřístupňuje Český národní korpus? ====== | ====== Jaké korpusy zpřístupňuje Český národní korpus? ====== |
| |
Projekt [[http://www.korpus.cz|Český národní korpus]] zpřístupňuje řadu různých [[pojmy:korpus|korpusů]], jejich okomentovaný přehled najdete v sekci týkající se jeho **[[struktura|složení]]**. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 3,6 miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných [[pojmy:paralelni|paralelních korpusech]]. | Projekt [[http://www.korpus.cz|Český národní korpus]] zpřístupňuje řadu různých [[pojmy:korpus|korpusů]], jejich okomentovaný přehled najdete v sekci týkající se jeho **[[struktura|složení]]**. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 4,5 miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných [[pojmy:paralelni|paralelních korpusech]]. |
| |
Korpusy slouží jak laikům, tak odborníkům jako východisko pro [[pojmy:korpus#korpus_a_jeho_vyuziti|různé druhy]] empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné [[kurz:zaciname|registraci]], a podléhají běžným zvyklostem pro [[cnk:citace|citování]] vědeckých pramenů. | Korpusy slouží jak laikům, tak odborníkům jako východisko pro [[pojmy:korpus#korpus_a_jeho_vyuziti|různé druhy]] empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné [[kurz:zaciname|registraci]], a podléhají běžným zvyklostem pro [[cnk:citace|citování]] vědeckých pramenů. |
| |
^ <fs large>Korpusy psaného jazyka (synchronní)</fs> ^^^^^^ | ^ <fs large>Korpusy psaného jazyka (synchronní)</fs> ^^^^^^ |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden rok zveřejnění první verze.)) ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^ |
| **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| | | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| |
| [[cnk:syn|SYN]] ([[cnk:syn:verze5|verze 5]]) | 3,836 mld. | ✓ | ✓ | 2010 | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | | | [[cnk:syn|SYN]] ([[cnk:syn:verze11|verze 11]]) | 5 mld. | ✓ | ✓ | 2010-2022 | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | |
| | [[cnk:syn2020|SYN2020]] | 100 mil. | ✓ | ✓ | 2020 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 | |
| [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | | | [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | |
| [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. | ✓ | ✓ | 2013 | [[pojmy:referencni|referenční]] korpus publicistických textů z let 2005-2009 | | | [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. | ✓ | ✓ | 2013 | [[pojmy:referencni|referenční]] korpus publicistických textů z let 2005--2009 | |
| [[cnk:syn2010|SYN2010]] | 100 mil. | ✓ | ✓ | 2010 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2005–2009 | | | [[cnk:syn2010|SYN2010]] | 100 mil. | ✓ | ✓ | 2010 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2005–2009 | |
| [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. | ✓ | ✓ | 2010 | [[pojmy:referencni|referenční]] korpus publicistických textů z let 1995–2007 | | | [[cnk:syn2009PUB|SYN2009PUB]] | 700 mil. | ✓ | ✓ | 2010 | [[pojmy:referencni|referenční]] korpus publicistických textů z let 1995–2007 | |
| [[cnk:syn2005|SYN2005]] | 100 mil. | ✓ | ✓ | 2005 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2000–2004 | | | [[cnk:syn2005|SYN2005]] | 100 mil. | ✓ | ✓ | 2005 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2000–2004 | |
| [[cnk:syn2000|SYN2000]] | 100 mil. | ✓ | ✓ | 2000 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 | | | [[cnk:syn2000|SYN2000]] | 100 mil. | ✓ | ✓ | 2000 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 | |
| | **[[cnk:struktura#webove|Webové korpusy]]** |||||| |
| | [[cnk:online|ONLINE]] ([[cnk:online:gen2|2. generace]]) | > 6 mld. | ✓ | ✓ | 2020 | monitorovací korpus českého internetu | |
| | [[cnk:net|NET]] (verze 2) | 176 mil. | ✓ | ✓ | 2019 | korpus polooficiální internetové komunikace | |
| | **[[pojmy:akvizicni_korpus|Akviziční korpusy]]** |||||| |
| | [[cnk:czesl-man|CzeSL-man]] | 100 tis. | ✓ | ✓ | 2016 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s ruční chybovou anotací | |
| | [[cnk:czesl-plain|CzeSL-plain]] | 2 mil. | ✗ | ✗ | 2012 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích | |
| | [[cnk:czesl-sgt|CzeSL-SGT]] | 960 tis. | ✓ | ✓ | 2014 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací| |
| | [[cnk:czesl-sgt-basic|CzeSL-SGT-basic]] | 960 tis. | ✓ | ✓ | 2019 | korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní | |
| | [[cnk:skript2012|SKRIPT2012]] | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací | |
| | [[cnk:vespa_cz|VESPA_CZ]] | 500 tis. | ✓ | ✓ | 2022 | [[pojmy:zakovsky|žákovský]] korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1 | |
| | **Autorské korpusy** |||||| |
| | [[cnk:capek|Capek]] | 2,3 mil. | ✓ | ✓ | 2007 | autorský korpus pouze vlastních textů Karla Čapka | |
| | [[cnk:capek|Capek_uplny]] | 2,5 mil. | ✓ | ✓ | 2007 | autorský korpus všech textů Karla Čapka | |
| | [[cnk:cep|Cep]] | 420 tis. | ✓ | ✓ | 2015 | autorský korpus prozaických textů Jana Čepa | |
| | [[cnk:kh-dopisy|KH-DOPISY]] | 500 tis. | ✗ | ✗ | 2017 | korpus korespondence Karla Havlíčka | |
| | [[cnk:kh-noviny|KH-NOVINY]] | 1 mil. | ✗ | ✗ | 2021 | korpus publicistiky Karla Havlíčka | |
| | [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | |
| **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| | | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| |
| [[cnk:czesl-plain|CZESL-PLAIN]] | 2 mil. | ✗ | ✗ | 2012 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích | | | [[cnk:etalon|Etalon]] | 1,9 mil. | ✓ | ✓ | 2021 | manuálně anotovaný korpus českých textů | |
| [[cnk:czesl-sgt|CZESL-SGT]] | 960 tis. | ✓ | ✓ | 2014 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací| | | [[cnk:fictree|FicTree]] | 135 tis. | ✓ | ✓ | 2017 | manuálně syntaktický anotovaný korpus beletrie | |
| [[cnk:fsc2000|FSC2000]] | 100 mil. | ✓ | ✗ | 2004 | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny | | | [[cnk:fsc2000|FSC2000]] | 100 mil. | ✓ | ✗ | 2004 | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny | |
| [[JEROME]] | 85 mil. | ✓ | ✓ | 2013 | jednojazyčný [[pojmy:srovnatelny|srovnatelný]] korpus pro výzkum překladové češtiny | | | [[JEROME]] | 85 mil. | ✓ | ✓ | 2013 | jednojazyčný [[pojmy:srovnatelny|srovnatelný]] korpus pro výzkum překladové češtiny | |
| [[cnk:ksk-dopisy|KSK-DOPISY]] | 800 tis. | ✗ | ✗ | 2006 | Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| | | [[cnk:koditex|Koditex]] | 10,8 mil. | ✓ | ✓ | 2018 | korpus vytvořený pro účely multidimenzionální analýzy češtiny | |
| | [[cnk:ksk-dopisy|KSK-DOPISY]] | 800 tis. | ✗ | ✗ | 2006 | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| |
| | [[cnk:ksp|KSP]] | 35,5 mil. | ✓ | ✓ | 2022 | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020| |
| [[cnk:link|LINK]] | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů | | | [[cnk:link|LINK]] | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů | |
| [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | | | [[cnk:totalita|Totalita]] | 12,9 mil. | ✓ | ✓ | 2010 | korpus psaného jazyka komunistického režimu | |
| [[cnk:skript2012|SKRIPT2012]] | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací | | |
^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ | ^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| **Obecné korpusy** |||||| | | **Obecné korpusy** |||||| |
| [[cnk:ortofon|ORTOFON]] | 1 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:orator|ORATOR]] (verze 2) | 1,2 mil. | ✓ | ✓ | 2019 | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí | |
| [[cnk:oral|ORAL]] | 5,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:ortofon|ORTOFON]] (verze 2) | 2,1 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | |
| | [[cnk:oral|ORAL]] (verze 1) | 5,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | |
| [[cnk:oral2013|ORAL2013]] | 2,8 mil. | ✗ | ✗ | 2013 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:oral2013|ORAL2013]] | 2,8 mil. | ✗ | ✗ | 2013 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | |
| [[cnk:oral2008|ORAL2008]] | 1 mil. | ✗ | ✗ | 2008 | [[pojmy:referencni|referenční]] sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) | | | [[cnk:oral2008|ORAL2008]] | 1 mil. | ✗ | ✗ | 2008 | [[pojmy:referencni|referenční]] sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) | |
| **Specializované korpusy** |||||| | | **Specializované korpusy** |||||| |
| [[cnk:bmk|BMK]] | 490 tis. | ✗ | ✗ | 2002 | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století | | | [[cnk:bmk|BMK]] | 490 tis. | ✗ | ✗ | 2002 | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století | |
| [[cnk:dialekt|DIALEKT]] | 100 tis. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí | | | [[cnk:dialekt|DIALEKT]] (verze 2) | 223 tis. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí | |
| | [[cnk:jazyky-v-migraci|Jazyky v migraci]] | 294 tis. | ✓ | ✓ | 2022 | korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích | |
| [[cnk:lindsei_cz|LINDSEI_CZ]] | 120 tis. | ✗ | ✗ | 2017 | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 | | | [[cnk:lindsei_cz|LINDSEI_CZ]] | 120 tis. | ✗ | ✗ | 2017 | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 | |
| [[cnk:pmk|PMK]] | 675 tis. | ✗ | ✗ | 2001 | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století | | | [[cnk:pmk|PMK]] | 675 tis. | ✗ | ✗ | 2001 | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století | |
| [[cnk:schola2010|SCHOLA2010]] | 790 tis. | ✗ | ✗ | 2010 | korpus vyučovacích hodin | | | [[cnk:schola2010|SCHOLA2010]] | 790 tis. | ✗ | ✗ | 2010 | korpus vyučovacích hodin | |
| [[cnk:speeches|SPEECHES]] | 215 tis. | ✓ | ✓ | 2015 | korpus prezidentských projevů | | | [[cnk:speeches|SPEECHES]] | 215 tis. | ✓ | ✓ | 2015 | korpus prezidentských projevů | |
| | [[cnk:parlcorp|Parlcorp]] | 38 mil. | ✓ | ✓ | 2021 | korpus projevů v poslanecké sněmovně (1993-2021) | |
^ <fs large>[[cnk:struktura#diachronnikorpus|Korpus psaného jazyka (diachronní)]]</fs> ^^^^^^ | ^ <fs large>[[cnk:struktura#diachronnikorpus|Korpus psaného jazyka (diachronní)]]</fs> ^^^^^^ |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze9|verze 9]]) | 1,46 mld. | (✓) | (✓) | 2008 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující více než 30 jazyků | | | [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]], [[cnk:intercorp:verze16|verze 16]] ) | 5,3 mld. | (✓) | (✓) | 2008-2023 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků | |
| | [[cnk:psalm77|Žalm 77]] | 10 tis. | (✓) | (✓) | 2023 | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| [[cnk:ukwac|ukWaC]] | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny | | | [[cnk:ukwac|ukWaC]] | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny | |
| **Psané jednojazyčné speciální korpusy** |||||| | | **Psané jednojazyčné speciální korpusy** |||||| |
| [[cnk:dotko|DOTKO]] | 12 mil. | ✗ | ✗ | 2010 | korpus dolní lužické srbštiny, převažují texty z let 1848--1933 | | | [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | |
| | [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | |
| [[cnk:eebo|EEBO]] | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | | | [[cnk:eebo|EEBO]] | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | |
| [[cnk:hotko|HOTKO]] | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | | | [[cnk:hotko|HOTKO]] (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | |
| [[cnk:lEstRepublicain|lEstRepublicain]] | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku L’Est Républicain | | | [[cnk:lEstRepublicain|lEstRepublicain]] | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku //L’Est Républicain// | |
| | [[cnk:nkjp|NKJP_1M]] | 1 mil. | ✓ | ✓ | 2018 | ručně označkovaný milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//) | |
| | [[cnk:obc|OBC]] | 24 mil. | ✗ | ✓ | 2021 | [[http://fedora.clarin-d.uni-saarland.de/oldbailey/index.html|Old Bailey Corpus]], záznamy soudních procesů z let 1720--1913 | |
====== Kdo tvoří Český národní korpus? ====== | ====== Kdo tvoří Český národní korpus? ====== |
| |