Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:uvod [2018/10/02 10:50] – [Přehled dostupných korpusů] alexandrrosen | cnk:uvod [2019/10/31 19:30] – [Přehled dostupných korpusů] alexandrrosen |
---|
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden rok zveřejnění první verze.)) ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden rok zveřejnění první verze.)) ^ charakteristika korpusu ^ |
| **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| | | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| |
| [[cnk:syn|SYN]] ([[cnk:syn:verze6|verze 6]]) | 4,033 mld. | ✓ | ✓ | 2010 | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | | | [[cnk:syn|SYN]] ([[cnk:syn:verze7|verze 7]]) | 4,255 mld. | ✓ | ✓ | 2010 | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | |
| [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | | | [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | |
| [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. | ✓ | ✓ | 2013 | [[pojmy:referencni|referenční]] korpus publicistických textů z let 2005--2009 | | | [[cnk:syn2013PUB|SYN2013PUB]] | 935 mil. | ✓ | ✓ | 2013 | [[pojmy:referencni|referenční]] korpus publicistických textů z let 2005--2009 | |
| [[cnk:czesl-plain|CZESL-PLAIN]] | 2 mil. | ✗ | ✗ | 2012 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích | | | [[cnk:czesl-plain|CZESL-PLAIN]] | 2 mil. | ✗ | ✗ | 2012 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích | |
| [[cnk:czesl-sgt|CZESL-SGT]] | 960 tis. | ✓ | ✓ | 2014 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací| | | [[cnk:czesl-sgt|CZESL-SGT]] | 960 tis. | ✓ | ✓ | 2014 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací| |
| | [[cnk:czesl-sgt-basic|CZESL-SGT-BASIC]] | 960 tis. | ✓ | ✓ | 2014 | korpus identický s CZESL-SGT až na omezený výběr metadat v sekci vyhledávacího rozhraní **Omezit hledání** | |
| [[cnk:fictree|FicTree]] | 135 tis. | ✓ | ✓ | 2017 | manuálně syntaktický anotovaný korpus beletrie | | | [[cnk:fictree|FicTree]] | 135 tis. | ✓ | ✓ | 2017 | manuálně syntaktický anotovaný korpus beletrie | |
| [[cnk:fsc2000|FSC2000]] | 100 mil. | ✓ | ✗ | 2004 | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny | | | [[cnk:fsc2000|FSC2000]] | 100 mil. | ✓ | ✗ | 2004 | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny | |
| [[JEROME]] | 85 mil. | ✓ | ✓ | 2013 | jednojazyčný [[pojmy:srovnatelny|srovnatelný]] korpus pro výzkum překladové češtiny | | | [[JEROME]] | 85 mil. | ✓ | ✓ | 2013 | jednojazyčný [[pojmy:srovnatelny|srovnatelný]] korpus pro výzkum překladové češtiny | |
| [[cnk:ksk-dopisy|KSK-DOPISY]] | 800 tis. | ✗ | ✗ | 2006 | Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| | | [[cnk:koditex|Koditex]] | 10,8 mil. | ✓ | ✓ | 2018 | korpus vytvořený pro účely multidimenzionální analýzy češtiny | |
| [[cnk:kh-dopisy|KH-DOPISY]] | 500 tis. | ✗ | ✗ | 2017 | Korpus korespondence Karla Havlíčka | | | [[cnk:kh-dopisy|KH-DOPISY]] | 500 tis. | ✗ | ✗ | 2017 | Korpus korespondence Karla Havlíčka | |
| | [[cnk:ksk-dopisy|KSK-DOPISY]] | 800 tis. | ✗ | ✗ | 2006 | Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| |
| [[cnk:link|LINK]] | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů | | | [[cnk:link|LINK]] | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů | |
| [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | | | [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | |
| [[cnk:skript2012|SKRIPT2012]] | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací | | | [[cnk:skript2012|SKRIPT2012]] | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací | |
| [[cnk:koditex|Koditex]] | 10,8 mil. | ✓ | ✓ | 2018 | korpus vytvořený pro účely multidimenzionální analýzy češtiny | | |
^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ | ^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| **Obecné korpusy** |||||| | | **Obecné korpusy** |||||| |
| [[cnk:ortofon|ORTOFON]] | 1 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:ortofon|ORTOFON]] | 1 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | |
| [[cnk:oral|ORAL]] | 5,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:oral|ORAL]] (verze 1) | 5,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | |
| [[cnk:oral2013|ORAL2013]] | 2,8 mil. | ✗ | ✗ | 2013 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:oral2013|ORAL2013]] | 2,8 mil. | ✗ | ✗ | 2013 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | |
| [[cnk:oral2008|ORAL2008]] | 1 mil. | ✗ | ✗ | 2008 | [[pojmy:referencni|referenční]] sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) | | | [[cnk:oral2008|ORAL2008]] | 1 mil. | ✗ | ✗ | 2008 | [[pojmy:referencni|referenční]] sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) | |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze11|verze 11]]) | 1,48 mld. | (✓) | (✓) | 2008 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující více než 30 jazyků | | | [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze11|verze 11]]) | 1,7 mld. | (✓) | (✓) | 2008 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující více než 30 jazyků | |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| [[cnk:hotko|HOTKO]] | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | | | [[cnk:hotko|HOTKO]] | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | |
| [[cnk:lEstRepublicain|lEstRepublicain]] | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku //L’Est Républicain// | | | [[cnk:lEstRepublicain|lEstRepublicain]] | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku //L’Est Républicain// | |
| [[cnk:nkjp|NKJP_1M]] | 1 mil. | ✓ | ✓ | 2018 | milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//) | | | [[cnk:nkjp|NKJP_1M]] | 1 mil. | ✓ | ✓ | 2018 | ručně označkovaný milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//) | |
====== Kdo tvoří Český národní korpus? ====== | ====== Kdo tvoří Český národní korpus? ====== |
| |