Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:uvod [2018/08/13 15:42]
Václav Cvrček
cnk:uvod [2018/11/07 15:31] (aktuální)
Michal Křen [Přehled dostupných korpusů]
Řádek 27: Řádek 27:
 | [[cnk:​fsc2000|FSC2000]] |  100 mil. |  ✓  |  ✗  |  2004  | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny | | [[cnk:​fsc2000|FSC2000]] |  100 mil. |  ✓  |  ✗  |  2004  | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
 | [[JEROME]] |  85 mil. |  ✓  |  ✓  |  2013  | jednojazyčný [[pojmy:​srovnatelny|srovnatelný]] korpus pro výzkum překladové češtiny | | [[JEROME]] |  85 mil. |  ✓  |  ✓  |  2013  | jednojazyčný [[pojmy:​srovnatelny|srovnatelný]] korpus pro výzkum překladové češtiny |
-| [[cnk:ksk-dopisy|KSK-DOPISY]] |  ​800 tis. |  ​✗  ​|  ​✗  ​|  ​2006  ​| ​Korpus soukromé korespondence:​ přepisy ručně psaných dopisů z let 1990–2004|+| [[cnk:koditex|Koditex]] |  ​10,8 mil. |  ​✓  ​|  ​✓  ​|  ​2018  ​| ​korpus vytvořený pro účely multidimenzionální analýzy češtiny ​|
 | [[cnk:​kh-dopisy|KH-DOPISY]] |  500 tis. |  ✗  |  ✗  |  2017  | Korpus korespondence Karla Havlíčka | | [[cnk:​kh-dopisy|KH-DOPISY]] |  500 tis. |  ✗  |  ✗  |  2017  | Korpus korespondence Karla Havlíčka |
 +| [[cnk:​ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | Korpus soukromé korespondence:​ přepisy ručně psaných dopisů z let 1990–2004|
 | [[cnk:​link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů | | [[cnk:​link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů |
 | [[cnk:​orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>​Nineteen_Eighty-Four|1984]] | | [[cnk:​orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>​Nineteen_Eighty-Four|1984]] |
 | [[cnk:​skript2012|SKRIPT2012]] |  590 tis. |  ✓  |  ✓  |  2013  | korpus školních písemných prací | | [[cnk:​skript2012|SKRIPT2012]] |  590 tis. |  ✓  |  ✓  |  2013  | korpus školních písemných prací |
-| [[cnk:​koditex|Koditex]] |  10,8 mil. |  ✓  |  ✓  |  2018  | korpus vytvořený pro účely multidimenzionální analýzy češtiny | 
 ^ <fs large>​[[cnk:​struktura#​korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</​fs>​ ^^^^^^ ^ <fs large>​[[cnk:​struktura#​korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</​fs>​ ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
Řádek 54: Řádek 54:
 | **[[cnk:​struktura#​cizojazycnekorpusy#​paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | **[[cnk:​struktura#​cizojazycnekorpusy#​paralelni|Psané paralelní korpusy (překlady a originály)]] ** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:​intercorp|InterCorp]] ([[cnk:​intercorp:​verze10|verze ​10]]) |  1,48 mld. |  (✓)  |  (✓)  |  2008  | [[pojmy:​verzovany|verzovaný]] [[pojmy:​paralelni|paralelní]] korpus zahrnující více než 30 jazyků |+| [[cnk:​intercorp|InterCorp]] ([[cnk:​intercorp:​verze11|verze ​​11]]) |  1,mld. |  (✓)  |  (✓)  |  2008  | [[pojmy:​verzovany|verzovaný]] [[pojmy:​paralelni|paralelní]] korpus zahrnující více než 30 jazyků |
 | **[[cnk:​struktura#​cizojazycnekorpusy#​paralelni|Psané srovnatelné webové korpusy]]** |||||| | **[[cnk:​struktura#​cizojazycnekorpusy#​paralelni|Psané srovnatelné webové korpusy]]** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
Řádek 69: Řádek 69:
 | [[cnk:​hotko|HOTKO]] |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny | | [[cnk:​hotko|HOTKO]] |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny |
 | [[cnk:​lEstRepublicain|lEstRepublicain]] |  73 mil. |  ✓  |  ✓  |  2013  | korpus textů francouzského regionálního deníku //L’Est Républicain//​ | | [[cnk:​lEstRepublicain|lEstRepublicain]] |  73 mil. |  ✓  |  ✓  |  2013  | korpus textů francouzského regionálního deníku //L’Est Républicain//​ |
-| [[cnk:​nkjp|NKJP_1M]] |  1 mil. |  ✓  |  ✓  |  2018  | milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//​) |+| [[cnk:​nkjp|NKJP_1M]] |  1 mil. |  ✓  |  ✓  |  2018  | ručně označkovaný ​milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//​) |
 ====== Kdo tvoří Český národní korpus? ====== ====== Kdo tvoří Český národní korpus? ======