AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:uvod [2018/03/24 11:49] – [Přehled dostupných korpusů] Michal Škrabalcnk:uvod [2018/12/20 12:57] – [Přehled dostupných korpusů] Michal Škrabal
Řádek 13: Řádek 13:
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden rok zveřejnění první verze.)) ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden rok zveřejnění první verze.)) ^ charakteristika korpusu ^
 | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** ||||||
-| [[cnk:syn|SYN]] ([[cnk:syn:verze6|verze 6]]) |  4,033 mld. |  ✓  |  ✓  |  2010  | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |+| [[cnk:syn|SYN]] ([[cnk:syn:verze7|verze 7]]) |  4,255 mld. |  ✓  |  ✓  |  2010  | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |
 | [[cnk:syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | | [[cnk:syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] |
 | [[cnk:syn2013PUB|SYN2013PUB]] |  935 mil. |  ✓  |  ✓  |  2013  | [[pojmy:referencni|referenční]] korpus publicistických textů z let 2005--2009 | | [[cnk:syn2013PUB|SYN2013PUB]] |  935 mil. |  ✓  |  ✓  |  2013  | [[pojmy:referencni|referenční]] korpus publicistických textů z let 2005--2009 |
Řádek 27: Řádek 27:
 | [[cnk:fsc2000|FSC2000]] |  100 mil. |  ✓  |  ✗  |  2004  | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny | | [[cnk:fsc2000|FSC2000]] |  100 mil. |  ✓  |  ✗  |  2004  | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
 | [[JEROME]] |  85 mil. |  ✓  |  ✓  |  2013  | jednojazyčný [[pojmy:srovnatelny|srovnatelný]] korpus pro výzkum překladové češtiny | | [[JEROME]] |  85 mil. |  ✓  |  ✓  |  2013  | jednojazyčný [[pojmy:srovnatelny|srovnatelný]] korpus pro výzkum překladové češtiny |
 +| [[cnk:koditex|Koditex]] |  10,8 mil. |  ✓  |  ✓  |  2018  | korpus vytvořený pro účely multidimenzionální analýzy češtiny |
 +| [[cnk:kh-dopisy|KH-DOPISY]] |  500 tis. |  ✗  |  ✗  |  2017  | Korpus korespondence Karla Havlíčka |
 | [[cnk:ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| | [[cnk:ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004|
 | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů | | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů |
Řádek 52: Řádek 54:
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze10|verze 10]]) |  1,48 mld. |  (✓)  |  (✓)  |  2008  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující více než 30 jazyků |+| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze11|verze ​11]]) |  1,mld. |  (✓)  |  (✓)  |  2008  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující více než 30 jazyků |
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
Řádek 67: Řádek 69:
 | [[cnk:hotko|HOTKO]] |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny | | [[cnk:hotko|HOTKO]] |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny |
 | [[cnk:lEstRepublicain|lEstRepublicain]] |  73 mil. |  ✓  |  ✓  |  2013  | korpus textů francouzského regionálního deníku //L’Est Républicain// | | [[cnk:lEstRepublicain|lEstRepublicain]] |  73 mil. |  ✓  |  ✓  |  2013  | korpus textů francouzského regionálního deníku //L’Est Républicain// |
-| [[cnk:nkjp|NKJP_1M]] |  1 mil. |  ✓  |  ✓  |  2018  | milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//) |+| [[cnk:nkjp|NKJP_1M]] |  1 mil. |  ✓  |  ✓  |  2018  | ručně označkovaný milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//) |
 ====== Kdo tvoří Český národní korpus? ====== ====== Kdo tvoří Český národní korpus? ======