Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:uvod [2018/10/19 18:33]
Michal Křen [Přehled dostupných korpusů]
cnk:uvod [2020/10/05 11:00] (aktuální)
Václav Cvrček [Přehled dostupných korpusů]
Řádek 13: Řádek 13:
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:​syn|SYN]] nebo [[cnk:​intercorp|InterCorp]],​ je uveden rok zveřejnění první verze.)) ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:​syn|SYN]] nebo [[cnk:​intercorp|InterCorp]],​ je uveden rok zveřejnění první verze.)) ^ charakteristika korpusu ^
 | **[[cnk:​struktura#​korpusypsanesoucasnecestiny(radasyn)#​obecne|Obecné korpusy]]** |||||| | **[[cnk:​struktura#​korpusypsanesoucasnecestiny(radasyn)#​obecne|Obecné korpusy]]** ||||||
-| [[cnk:​syn|SYN]] ([[cnk:syn:verze6|verze ​6]]) |  4,033 mld. |  ✓  |  ✓  |  2010  | [[pojmy:​verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |+| [[cnk:​syn|SYN]] ([[cnk:syn:verze8|verze ​8]]) |  4,mld. |  ✓  |  ✓  |  2010-2019  | [[pojmy:​verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |
 | [[cnk:​syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:​referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014,​ s novou [[cnk:​klasifikace_textu_syn2015|klasifikací textů]] | | [[cnk:​syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:​referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014,​ s novou [[cnk:​klasifikace_textu_syn2015|klasifikací textů]] |
 | [[cnk:​syn2013PUB|SYN2013PUB]] |  935 mil. |  ✓  |  ✓  |  2013  | [[pojmy:​referencni|referenční]] korpus publicistických textů z let 2005--2009 | | [[cnk:​syn2013PUB|SYN2013PUB]] |  935 mil. |  ✓  |  ✓  |  2013  | [[pojmy:​referencni|referenční]] korpus publicistických textů z let 2005--2009 |
Řádek 22: Řádek 22:
 | [[cnk:​syn2000|SYN2000]] |  100 mil. |  ✓  |  ✓  |  2000  | [[pojmy:​referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 | | [[cnk:​syn2000|SYN2000]] |  100 mil. |  ✓  |  ✓  |  2000  | [[pojmy:​referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 |
 | **[[cnk:​struktura#​korpusypsanesoucasnecestiny(radasyn)#​specializovane|Specializované korpusy]]** |||||| | **[[cnk:​struktura#​korpusypsanesoucasnecestiny(radasyn)#​specializovane|Specializované korpusy]]** ||||||
 +| [[cnk:​capek|Capek]] |  2,3 mil. |  ✓  |  ✓  |  2007  | autorský korpus pouze vlastních textů Karla Čapka |
 +| [[cnk:​capek|Capek_uplny]] |  2,5 mil. |  ✓  |  ✓  |  2007  | autorský korpus všech textů Karla Čapka |
 +| [[cnk:​cep|Cep]] |  420 tis. |  ✓  |  ✓  |  2015  | autorský korpus prozaických textů Jana Čepa |
 | [[cnk:​czesl-plain|CZESL-PLAIN]] |  2 mil. |  ✗  |  ✗  |  2012  | [[pojmy:​zakovsky|žákovský]] korpus češtiny nerodilých mluvčích | | [[cnk:​czesl-plain|CZESL-PLAIN]] |  2 mil. |  ✗  |  ✗  |  2012  | [[pojmy:​zakovsky|žákovský]] korpus češtiny nerodilých mluvčích |
 | [[cnk:​czesl-sgt|CZESL-SGT]] |  960 tis. |  ✓  |  ✓  |  2014  | [[pojmy:​zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací| | [[cnk:​czesl-sgt|CZESL-SGT]] |  960 tis. |  ✓  |  ✓  |  2014  | [[pojmy:​zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací|
 +| [[cnk:​czesl-sgt-basic|CZESL-SGT-BASIC]] |  960 tis. |  ✓  |  ✓  |  2019  | korpus identický s CZESL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní |
 | [[cnk:​fictree|FicTree]] |  135 tis. |  ✓  |  ✓  |  2017  | manuálně syntaktický anotovaný korpus beletrie | | [[cnk:​fictree|FicTree]] |  135 tis. |  ✓  |  ✓  |  2017  | manuálně syntaktický anotovaný korpus beletrie |
 | [[cnk:​fsc2000|FSC2000]] |  100 mil. |  ✓  |  ✗  |  2004  | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny | | [[cnk:​fsc2000|FSC2000]] |  100 mil. |  ✓  |  ✗  |  2004  | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
Řádek 31: Řádek 35:
 | [[cnk:​ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | Korpus soukromé korespondence:​ přepisy ručně psaných dopisů z let 1990–2004| | [[cnk:​ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | Korpus soukromé korespondence:​ přepisy ručně psaných dopisů z let 1990–2004|
 | [[cnk:​link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů | | [[cnk:​link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů |
 +| [[cnk:​net|NET]] |  41 mil. |  ✓  |  ✓  |  2019  | korpus polooficiální internetové komunikace |
 +| [[cnk:​online|ONLINE]] |  > 6 mld. |  ✓  |  ✓  |  2020  | monitorovací korpus českého internetu |
 | [[cnk:​orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>​Nineteen_Eighty-Four|1984]] | | [[cnk:​orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>​Nineteen_Eighty-Four|1984]] |
 | [[cnk:​skript2012|SKRIPT2012]] |  590 tis. |  ✓  |  ✓  |  2013  | korpus školních písemných prací | | [[cnk:​skript2012|SKRIPT2012]] |  590 tis. |  ✓  |  ✓  |  2013  | korpus školních písemných prací |
Řádek 36: Řádek 42:
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
 | **Obecné korpusy** |||||| | **Obecné korpusy** ||||||
 +| [[cnk:​orator|ORATOR]] |  580 tis. |  ✓  |  ✓  |  2019  | [[pojmy:​referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí |
 | [[cnk:​ortofon|ORTOFON]] |  1 mil. |  ✓  |  ✓  |  2017  | [[pojmy:​referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | | [[cnk:​ortofon|ORTOFON]] |  1 mil. |  ✓  |  ✓  |  2017  | [[pojmy:​referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) |
-| [[cnk:​oral|ORAL]] |  5,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:​referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |+| [[cnk:​oral|ORAL]] ​(verze 1) |  5,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:​referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
 | [[cnk:​oral2013|ORAL2013]] |  2,8 mil. |  ✗  |  ✗  |  2013  | [[pojmy:​referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | [[cnk:​oral2013|ORAL2013]] |  2,8 mil. |  ✗  |  ✗  |  2013  | [[pojmy:​referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
 | [[cnk:​oral2008|ORAL2008]] |  1 mil. |  ✗  |  ✗  |  2008  | [[pojmy:​referencni|referenční]] sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) | | [[cnk:​oral2008|ORAL2008]] |  1 mil. |  ✗  |  ✗  |  2008  | [[pojmy:​referencni|referenční]] sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) |
Řádek 54: Řádek 61:
 | **[[cnk:​struktura#​cizojazycnekorpusy#​paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | **[[cnk:​struktura#​cizojazycnekorpusy#​paralelni|Psané paralelní korpusy (překlady a originály)]] ** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:​intercorp|InterCorp]] ([[cnk:​intercorp:​verze11|verze ​​11]]) |  1,7 mld. |  (✓)  |  (✓)  |  2008  | [[pojmy:​verzovany|verzovaný]] [[pojmy:​paralelni|paralelní]] korpus zahrnující ​více než 30 jazyků |+| [[cnk:​intercorp|InterCorp]] ([[cnk:​intercorp:​current|verze ​12]]) |  1,7 mld. |  (✓)  |  (✓)  |  2008-2019  | [[pojmy:​verzovany|verzovaný]] [[pojmy:​paralelni|paralelní]] korpus zahrnující ​40 jazyků |
 | **[[cnk:​struktura#​cizojazycnekorpusy#​paralelni|Psané srovnatelné webové korpusy]]** |||||| | **[[cnk:​struktura#​cizojazycnekorpusy#​paralelni|Psané srovnatelné webové korpusy]]** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:​tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
Řádek 69: Řádek 76:
 | [[cnk:​hotko|HOTKO]] |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny | | [[cnk:​hotko|HOTKO]] |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny |
 | [[cnk:​lEstRepublicain|lEstRepublicain]] |  73 mil. |  ✓  |  ✓  |  2013  | korpus textů francouzského regionálního deníku //L’Est Républicain//​ | | [[cnk:​lEstRepublicain|lEstRepublicain]] |  73 mil. |  ✓  |  ✓  |  2013  | korpus textů francouzského regionálního deníku //L’Est Républicain//​ |
-| [[cnk:​nkjp|NKJP_1M]] |  1 mil. |  ✓  |  ✓  |  2018  | milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//​) |+| [[cnk:​nkjp|NKJP_1M]] |  1 mil. |  ✓  |  ✓  |  2018  | ručně označkovaný ​milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//​) |
 ====== Kdo tvoří Český národní korpus? ====== ====== Kdo tvoří Český národní korpus? ======