AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:uvod [2016/09/14 17:18] – [Přehled dostupných korpusů] Michal Křencnk:uvod [2024/02/29 20:56] (aktuální) Michal Křen
Řádek 3: Řádek 3:
 ====== Jaké korpusy zpřístupňuje Český národní korpus? ====== ====== Jaké korpusy zpřístupňuje Český národní korpus? ======
  
-Projekt [[http://www.korpus.cz|Český národní korpus]] zpřístupňuje řadu různých [[pojmy:korpus|korpusů]], jejich okomentovaný přehled najdete v sekci týkající se jeho **[[struktura|složení]]**. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 3,miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných [[pojmy:paralelni|paralelních korpusech]].+Projekt [[http://www.korpus.cz|Český národní korpus]] zpřístupňuje řadu různých [[pojmy:korpus|korpusů]], jejich okomentovaný přehled najdete v sekci týkající se jeho **[[struktura|složení]]**. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 4,miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných [[pojmy:paralelni|paralelních korpusech]].
  
 Korpusy slouží jak laikům, tak odborníkům jako východisko pro [[pojmy:korpus#korpus_a_jeho_vyuziti|různé druhy]] empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné [[kurz:zaciname|registraci]], a podléhají běžným zvyklostem pro [[cnk:citace|citování]] vědeckých pramenů.  Korpusy slouží jak laikům, tak odborníkům jako východisko pro [[pojmy:korpus#korpus_a_jeho_vyuziti|různé druhy]] empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné [[kurz:zaciname|registraci]], a podléhají běžným zvyklostem pro [[cnk:citace|citování]] vědeckých pramenů. 
Řádek 11: Řádek 11:
  
 ^ <fs large>Korpusy psaného jazyka (synchronní)</fs> ^^^^^^ ^ <fs large>Korpusy psaného jazyka (synchronní)</fs> ^^^^^^
-^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], a korpusů nereferenčních je uveden rok zveřejnění první verze.)) ^ charakteristika korpusu ^+^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^
 | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** ||||||
-| [[cnk:syn|SYN]] ([[cnk:syn:verze4|verze 4]]) |  3,626 mld. |  ✓  |  ✓  |  2010  | verzovaný korpus, spojení všech synchronních psaných korpusů řady SYN | +| [[cnk:syn|SYN]] ([[cnk:syn:verze12|verze 12]]) |  mld. |  ✓  |  ✓  |  2010-2023  | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | 
-| [[cnk:syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | referenční reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | +| [[cnk:syn2020|SYN2020]] |  100 mil. |  ✓  |  ✓  |  2020  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 
-| [[cnk:syn2013PUB|SYN2013PUB]] |  935 mil. |  ✓  |  ✓  |  2013  | referenční korpus publicistických textů z let 2005-2009 | +| [[cnk:syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | 
-| [[cnk:syn2010|SYN2010]] |  100 mil. |  ✓  |  ✓  |  2010  | referenční reprezentativní korpus, převažují texty z let 2005–2010 +| [[cnk:syn2013PUB|SYN2013PUB]] |  935 mil. |  ✓  |  ✓  |  2013  | [[pojmy:referencni|referenční]] korpus publicistických textů z let 2005--2009 | 
-| [[cnk:syn2009PUB|SYN2009PUB]] |  700 mil. |  ✓  |  ✓  |  2010  | referenční korpus publicistických textů z let 1995–2007 | +| [[cnk:syn2010|SYN2010]] |  100 mil. |  ✓  |  ✓  |  2010  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2005–2009 
-| [[cnk:syn2006PUB|SYN2006PUB]] |  300 mil. |  ✓  |  ✓  |  2006  | referenční korpus publicistických textů z let 1989–2004| +| [[cnk:syn2009PUB|SYN2009PUB]] |  700 mil. |  ✓  |  ✓  |  2010  | [[pojmy:referencni|referenční]] korpus publicistických textů z let 1995–2007 | 
-| [[cnk:syn2005|SYN2005]] |  100 mil. |  ✓  |  ✓  |  2005  | referenční reprezentativní korpus, převažují texty z let 2000–2004 | +| [[cnk:syn2006PUB|SYN2006PUB]] |  300 mil. |  ✓  |  ✓  |  2006  | [[pojmy:referencni|referenční]] korpus publicistických textů z let 1989–2004| 
-| [[cnk:syn2000|SYN2000]] |  100 mil. |  ✓  |  ✓  |  2000  | referenční reprezentativní korpus, převažují texty z let 1990–1999 |+| [[cnk:syn2005|SYN2005]] |  100 mil. |  ✓  |  ✓  |  2005  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2000–2004 | 
 +| [[cnk:syn2000|SYN2000]] |  100 mil. |  ✓  |  ✓  |  2000  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 
 +| **[[cnk:struktura#webove|Webové korpusy]]** |||||| 
 +| [[cnk:online|ONLINE]] ([[cnk:online:gen2|2. generace]]) |  > 6 mld. |  ✓  |  ✓  |  2020  | monitorovací korpus českého internetu | 
 +| [[cnk:net|NET]] (verze 2) |  176 mil. |  ✓  |  ✓  |  2019  | korpus polooficiální internetové komunikace | 
 +| **[[pojmy:akvizicni_korpus|Akviziční korpusy]]** |||||| 
 +| [[cnk:czesl-man|CzeSL-man]] |  100 tis. |  ✓  |  ✓  |  2016  | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s ruční chybovou anotací | 
 +| [[cnk:czesl-plain|CzeSL-plain]] |  2 mil. |  ✗  |  ✗  |  2012  | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích | 
 +| [[cnk:czesl-sgt|CzeSL-SGT]] |  960 tis. |  ✓  |  ✓  |  2014  | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací| 
 +| [[cnk:czesl-sgt-basic|CzeSL-SGT-basic]] |  960 tis. |  ✓  |  ✓  |  2019  | korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní | 
 +| [[cnk:skript2012|SKRIPT2012]] |  590 tis. |  ✓  |  ✓  |  2013  | korpus školních písemných prací | 
 +| [[cnk:vespa_cz|VESPA_CZ]] |  500 tis. |  ✓  |  ✓  |  2022  | [[pojmy:zakovsky|žákovský]] korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1 | 
 +| **Autorské korpusy** |||||| 
 +| [[cnk:capek|Capek]] |  2,3 mil. |  ✓  |  ✓  |  2007  | autorský korpus pouze vlastních textů Karla Čapka | 
 +| [[cnk:capek|Capek_uplny]] |  2,5 mil. |  ✓  |  ✓  |  2007  | autorský korpus všech textů Karla Čapka | 
 +| [[cnk:cep|Cep]] |  420 tis. |  ✓  |  ✓  |  2015  | autorský korpus prozaických textů Jana Čepa | 
 +| [[cnk:kh-dopisy|KH-DOPISY]] |  500 tis. |  ✗  |  ✗  |  2017  | korpus korespondence Karla Havlíčka | 
 +| [[cnk:kh-noviny|KH-NOVINY]] |  1 mil. |  ✗  |  ✗  |  2021  | korpus publicistiky Karla Havlíčka | 
 +| [[cnk:orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] |
 | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** ||||||
 +| [[cnk:etalon|Etalon]] |  1,9 mil. |  ✓  |  ✓  |  2021  | manuálně anotovaný korpus českých textů |
 +| [[cnk:fictree|FicTree]] |  135 tis. |  ✓  |  ✓  |  2017  | manuálně syntaktický anotovaný korpus beletrie |
 | [[cnk:fsc2000|FSC2000]] |  100 mil. |  ✓  |  ✗  |  2004  | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny | | [[cnk:fsc2000|FSC2000]] |  100 mil. |  ✓  |  ✗  |  2004  | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
-| [[cnk:czesl-plain|CZESL-PLAIN]] |  mil. |  ✗  |  ✗  |  2012  žákovský korpus češtiny nerodilých mluvčích | +| [[JEROME]] |  85 mil. |  ✓  |  ✓  |  2013  jednojazyčný [[pojmy:srovnatelny|srovnatelný]] korpus pro výzkum překladové češtiny | 
-[[cnk:czesl-sgt|CZESL-SGT]] |  960 tis. |  ✓  |  ✓  |  2014  | žákovský korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací+| [[cnk:koditex|Koditex]] |  10,8 mil. |  ✓  |  ✓  |  2018  | korpus vytvořený pro účely multidimenzionální analýzy češtiny | 
-| [[JEROME]] |  85 mil. |  ✓  |  ✓  |  2013  jednojazyčný srovnatelný korpus pro výzkum překladové češtiny | +| [[cnk:ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004
-| [[cnk:ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004|+| [[cnk:ksp|KSP]] |  35,5 mil. |  ✓  |  ✓  |  2022  | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020|
 | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů | | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů |
-| [[cnk:orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] +| [[cnk:totalita|Totalita]] |  12,9 mil. |  ✓  |  ✓  |  2010  | korpus psaného jazyka komunistického režimu 
-| [[cnk:skript2012|SKRIPT2012]] |  590 tis. |  ✓  |  ✓  |  2013  | korpus školních písemných prací +| [[cnk:veda|Věda]] |  15 mil. |  ✓  |  ✓  |  2023  | korpus odborných textů, komplement [[https://db.korpus.cz/search/acphrase|Frázové banky akademické češtiny]] 
-^ <fs large>[[cnk:struktura#korpusymluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^+^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
 | **Obecné korpusy** |||||| | **Obecné korpusy** ||||||
-| [[cnk:oral2013|ORAL2013]] |  2,8 mil. |  ✗  |  ✗  |  2013  | referenční reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | +| [[cnk:orator|ORATOR]] (verze 2) |  1,2 mil. |  ✓  |  ✓  |  2019  | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí | 
-| [[cnk:oral2008|ORAL2008]] |  1 mil. |  ✗  |  ✗  |  2008  | referenční sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) | +| [[cnk:ortofon|ORTOFON]] (verze 2) |  2,1 mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | 
-| [[cnk:oral2006|ORAL2006]] |  1 mil. |  ✗  |  ✗  |  2006  | referenční korpus neformální mluvené češtiny (zahrnuje pouze Čechy) |+| [[cnk:oral|ORAL]] (verze 1) |  5,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | 
 +| [[cnk:oral2013|ORAL2013]] |  2,8 mil. |  ✗  |  ✗  |  2013  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | 
 +| [[cnk:oral2008|ORAL2008]] |  1 mil. |  ✗  |  ✗  |  2008  | [[pojmy:referencni|referenční]] sociolingvisticky vyvážený korpus neformální mluvené češtiny (zahrnuje pouze Čechy) | 
 +| [[cnk:oral2006|ORAL2006]] |  1 mil. |  ✗  |  ✗  |  2006  | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje pouze Čechy) |
 | **Specializované korpusy** |||||| | **Specializované korpusy** ||||||
 | [[cnk:bmk|BMK]] |  490 tis. |  ✗  |  ✗  |  2002  | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století | | [[cnk:bmk|BMK]] |  490 tis. |  ✗  |  ✗  |  2002  | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století |
 +| [[cnk:dialekt|DIALEKT]] (verze 2) |  223 tis. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí  |
 +| [[cnk:jazyky-v-migraci|Jazyky v migraci]] |  294 tis. |  ✓  |  ✓  |  2022  | korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích |
 +| [[cnk:lindsei_cz|LINDSEI_CZ]] |  120 tis. |  ✗  |  ✗  |  2017  | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 |
 | [[cnk:pmk|PMK]] |  675 tis. |  ✗  |  ✗  |  2001  | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století | | [[cnk:pmk|PMK]] |  675 tis. |  ✗  |  ✗  |  2001  | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století |
 | [[cnk:schola2010|SCHOLA2010]] |  790 tis. |  ✗  |  ✗  |  2010  | korpus vyučovacích hodin | | [[cnk:schola2010|SCHOLA2010]] |  790 tis. |  ✗  |  ✗  |  2010  | korpus vyučovacích hodin |
 | [[cnk:speeches|SPEECHES]] |  215 tis. |  ✓  |  ✓  |  2015  | korpus prezidentských projevů | | [[cnk:speeches|SPEECHES]] |  215 tis. |  ✓  |  ✓  |  2015  | korpus prezidentských projevů |
 +| [[cnk:parlcorp|Parlcorp]] |  38 mil. |  ✓  |  ✓  |  2021  | korpus projevů v poslanecké sněmovně (1993-2021) |
 ^ <fs large>[[cnk:struktura#diachronnikorpus|Korpus psaného jazyka (diachronní)]]</fs> ^^^^^^ ^ <fs large>[[cnk:struktura#diachronnikorpus|Korpus psaného jazyka (diachronní)]]</fs> ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:diakorp|DIAKORP]] |  3,4 mil. |  ✗  |  ✗  |  2005  | verzovaný korpus diachronní složky ČNK |+| [[cnk:diakorp|DIAKORP]] (verze 6) |  3,4 mil. |  ✗  |  ✗  |  2005  | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK 
 +| [[cnk:onomos|OnomOs]] |  200 tis. |  ✓  |  ✓  |  2023  | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit |
 ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^ ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze9|verze 9]]) |  1,46 mld. |  (✓)  |  (✓)  |  2008  | verzovaný paralelní korpus zahrnující více než 30 jazyků |+| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]], [[cnk:intercorp:verze16|verze 16]]) |  5,mld. |  (✓)  |  (✓)  |  2008-2023  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků 
 +| [[cnk:psalm77|Žalm 77]] |  10 tis. |  (✓)  |  (✓)  |  2023  | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině |
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:aranea|Aranea]] |  1 000 mil. |  ✓  |  ✓  |  2014  | srovnatelné webové korpusy pro řadu jazyků  |+| [[cnk:aranea|Aranea]] |  1 000 mil. |  ✓  |  ✓  |  2014  | [[pojmy:srovnatelny|srovnatelné]] webové korpusy pro řadu jazyků  |
 | **[[cnk:struktura#cizojazycnekorpusy#jednojazycne|Psané jednojazyčné webové korpusy]]** |||||| | **[[cnk:struktura#cizojazycnekorpusy#jednojazycne|Psané jednojazyčné webové korpusy]]** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
Řádek 58: Řádek 87:
 | [[cnk:ukwac|ukWaC]] |  1 900 mil. |  ✓  |  ✓  |  2013  | webový korpus britské angličtiny | | [[cnk:ukwac|ukWaC]] |  1 900 mil. |  ✓  |  ✓  |  2013  | webový korpus britské angličtiny |
 | **Psané jednojazyčné speciální korpusy** |||||| | **Psané jednojazyčné speciální korpusy** ||||||
-| [[cnk:dotko|DOTKO]] |  12 mil. |  ✗   ✗  |  2010  | korpus dolní lužické srbštiny, převažují texty z let 1848–1933 +| [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | 
-| [[cnk:eebo|EEBO]] |  730 mil. |  ✗  |  ✗  |  2015  | korpus anglických textů z období 1475-1700 století z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | +| [[cnk:dotko|DOTKO]] (verze 2) |  15,5 mil. |  ✓   ✗  |  2010  | korpus dolní lužické srbštiny | 
-| [[cnk:hotko|HOTKO]] |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny | +| [[cnk:eebo|EEBO]] |  730 mil. |  ✗  |  ✗  |  2015  | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | 
-| [[cnk:lEstRepublicain|lEstRepublicain]] |  73 mil. |  ✓  |  ✓  |  2013  | korpus textů francouzského regionálního deníku L’Est Républicain | +| [[cnk:hotko|HOTKO]] (verze 2) |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny | 
 +| [[cnk:lEstRepublicain|lEstRepublicain]] |  73 mil. |  ✓  |  ✓  |  2013  | korpus textů francouzského regionálního deníku //L’Est Républicain// 
 +| [[cnk:nkjp|NKJP_1M]] |  1 mil. |  ✓  |  ✓  |  2018  | ručně označkovaný milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//) | 
 +| [[cnk:obc|OBC]] |  24 mil. |  ✗  |  ✓  |  2021  | [[http://fedora.clarin-d.uni-saarland.de/oldbailey/index.html|Old Bailey Corpus]], záznamy soudních procesů z let 1720--1913 |
 ====== Kdo tvoří Český národní korpus? ====== ====== Kdo tvoří Český národní korpus? ======