AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:uvod [2021/09/18 12:52] – [Přehled dostupných korpusů] Alexandr Rosencnk:uvod [2024/02/29 20:56] (aktuální) Michal Křen
Řádek 3: Řádek 3:
 ====== Jaké korpusy zpřístupňuje Český národní korpus? ====== ====== Jaké korpusy zpřístupňuje Český národní korpus? ======
  
-Projekt [[http://www.korpus.cz|Český národní korpus]] zpřístupňuje řadu různých [[pojmy:korpus|korpusů]], jejich okomentovaný přehled najdete v sekci týkající se jeho **[[struktura|složení]]**. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 3,miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných [[pojmy:paralelni|paralelních korpusech]].+Projekt [[http://www.korpus.cz|Český národní korpus]] zpřístupňuje řadu různých [[pojmy:korpus|korpusů]], jejich okomentovaný přehled najdete v sekci týkající se jeho **[[struktura|složení]]**. Celkový rozsah textů, který ČNK v korpusech zpracoval a zpřístupnil, přesahuje 4,miliardy slov v českých jednojazyčných a 1,5 miliardy slov v cizojazyčných [[pojmy:paralelni|paralelních korpusech]].
  
 Korpusy slouží jak laikům, tak odborníkům jako východisko pro [[pojmy:korpus#korpus_a_jeho_vyuziti|různé druhy]] empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné [[kurz:zaciname|registraci]], a podléhají běžným zvyklostem pro [[cnk:citace|citování]] vědeckých pramenů.  Korpusy slouží jak laikům, tak odborníkům jako východisko pro [[pojmy:korpus#korpus_a_jeho_vyuziti|různé druhy]] empirického poznávání jazyka. Pravidla jejich užívání se řídí jednotnými zásadami, které uživatelé schvalují při bezplatné [[kurz:zaciname|registraci]], a podléhají běžným zvyklostem pro [[cnk:citace|citování]] vědeckých pramenů. 
Řádek 11: Řádek 11:
  
 ^ <fs large>Korpusy psaného jazyka (synchronní)</fs> ^^^^^^ ^ <fs large>Korpusy psaného jazyka (synchronní)</fs> ^^^^^^
-^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden rok zveřejnění první verze.)) ^ charakteristika korpusu ^+^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^
 | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** ||||||
-| [[cnk:syn|SYN]] ([[cnk:syn:verze8|verze 8]]) |  4,5 mld. |  ✓  |  ✓  |  2010-2019  | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |+| [[cnk:syn|SYN]] ([[cnk:syn:verze12|verze 12]]) |  5 mld. |  ✓  |  ✓  |  2010-2023  | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |
 | [[cnk:syn2020|SYN2020]] |  100 mil. |  ✓  |  ✓  |  2020  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 | | [[cnk:syn2020|SYN2020]] |  100 mil. |  ✓  |  ✓  |  2020  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 |
 | [[cnk:syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | | [[cnk:syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] |
Řádek 23: Řádek 23:
 | [[cnk:syn2000|SYN2000]] |  100 mil. |  ✓  |  ✓  |  2000  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 | | [[cnk:syn2000|SYN2000]] |  100 mil. |  ✓  |  ✓  |  2000  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 |
 | **[[cnk:struktura#webove|Webové korpusy]]** |||||| | **[[cnk:struktura#webove|Webové korpusy]]** ||||||
-| [[cnk:online|ONLINE]] |  > 6 mld. |  ✓  |  ✓  |  2020  | monitorovací korpus českého internetu |+| [[cnk:online|ONLINE]] ([[cnk:online:gen2|2. generace]]) |  > 6 mld. |  ✓  |  ✓  |  2020  | monitorovací korpus českého internetu |
 | [[cnk:net|NET]] (verze 2) |  176 mil. |  ✓  |  ✓  |  2019  | korpus polooficiální internetové komunikace | | [[cnk:net|NET]] (verze 2) |  176 mil. |  ✓  |  ✓  |  2019  | korpus polooficiální internetové komunikace |
 | **[[pojmy:akvizicni_korpus|Akviziční korpusy]]** |||||| | **[[pojmy:akvizicni_korpus|Akviziční korpusy]]** ||||||
Řádek 31: Řádek 31:
 | [[cnk:czesl-sgt-basic|CzeSL-SGT-basic]] |  960 tis. |  ✓  |  ✓  |  2019  | korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní | | [[cnk:czesl-sgt-basic|CzeSL-SGT-basic]] |  960 tis. |  ✓  |  ✓  |  2019  | korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní |
 | [[cnk:skript2012|SKRIPT2012]] |  590 tis. |  ✓  |  ✓  |  2013  | korpus školních písemných prací | | [[cnk:skript2012|SKRIPT2012]] |  590 tis. |  ✓  |  ✓  |  2013  | korpus školních písemných prací |
 +| [[cnk:vespa_cz|VESPA_CZ]] |  500 tis. |  ✓  |  ✓  |  2022  | [[pojmy:zakovsky|žákovský]] korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1 |
 | **Autorské korpusy** |||||| | **Autorské korpusy** ||||||
 | [[cnk:capek|Capek]] |  2,3 mil. |  ✓  |  ✓  |  2007  | autorský korpus pouze vlastních textů Karla Čapka | | [[cnk:capek|Capek]] |  2,3 mil. |  ✓  |  ✓  |  2007  | autorský korpus pouze vlastních textů Karla Čapka |
Řádek 39: Řádek 40:
 | [[cnk:orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | | [[cnk:orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] |
 | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** ||||||
 +| [[cnk:etalon|Etalon]] |  1,9 mil. |  ✓  |  ✓  |  2021  | manuálně anotovaný korpus českých textů |
 | [[cnk:fictree|FicTree]] |  135 tis. |  ✓  |  ✓  |  2017  | manuálně syntaktický anotovaný korpus beletrie | | [[cnk:fictree|FicTree]] |  135 tis. |  ✓  |  ✓  |  2017  | manuálně syntaktický anotovaný korpus beletrie |
 | [[cnk:fsc2000|FSC2000]] |  100 mil. |  ✓  |  ✗  |  2004  | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny | | [[cnk:fsc2000|FSC2000]] |  100 mil. |  ✓  |  ✗  |  2004  | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
Řádek 44: Řádek 46:
 | [[cnk:koditex|Koditex]] |  10,8 mil. |  ✓  |  ✓  |  2018  | korpus vytvořený pro účely multidimenzionální analýzy češtiny | | [[cnk:koditex|Koditex]] |  10,8 mil. |  ✓  |  ✓  |  2018  | korpus vytvořený pro účely multidimenzionální analýzy češtiny |
 | [[cnk:ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| | [[cnk:ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004|
 +| [[cnk:ksp|KSP]] |  35,5 mil. |  ✓  |  ✓  |  2022  | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020|
 | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů | | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů |
 +| [[cnk:totalita|Totalita]] |  12,9 mil. |  ✓  |  ✓  |  2010  | korpus psaného jazyka komunistického režimu |
 +| [[cnk:veda|Věda]] |  15 mil. |  ✓  |  ✓  |  2023  | korpus odborných textů, komplement [[https://db.korpus.cz/search/acphrase|Frázové banky akademické češtiny]] |
 ^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ ^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
Řádek 56: Řádek 61:
 | **Specializované korpusy** |||||| | **Specializované korpusy** ||||||
 | [[cnk:bmk|BMK]] |  490 tis. |  ✗  |  ✗  |  2002  | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století | | [[cnk:bmk|BMK]] |  490 tis. |  ✗  |  ✗  |  2002  | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století |
-| [[cnk:dialekt|DIALEKT]] |  100 tis. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí  |+| [[cnk:dialekt|DIALEKT]] (verze 2) |  223 tis. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí  
 +| [[cnk:jazyky-v-migraci|Jazyky v migraci]] |  294 tis. |  ✓  |  ✓  |  2022  | korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích |
 | [[cnk:lindsei_cz|LINDSEI_CZ]] |  120 tis. |  ✗  |  ✗  |  2017  | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 | | [[cnk:lindsei_cz|LINDSEI_CZ]] |  120 tis. |  ✗  |  ✗  |  2017  | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 |
 | [[cnk:pmk|PMK]] |  675 tis. |  ✗  |  ✗  |  2001  | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století | | [[cnk:pmk|PMK]] |  675 tis. |  ✗  |  ✗  |  2001  | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století |
Řádek 65: Řádek 71:
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
 | [[cnk:diakorp|DIAKORP]] (verze 6) |  3,4 mil. |  ✗  |  ✗  |  2005  | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK | | [[cnk:diakorp|DIAKORP]] (verze 6) |  3,4 mil. |  ✗  |  ✗  |  2005  | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK |
 +| [[cnk:onomos|OnomOs]] |  200 tis. |  ✓  |  ✓  |  2023  | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit |
 ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^ ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13|verze 13]]) |  1,mld. |  (✓)  |  (✓)  |  2008-2021  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 40 dalších jazyků |+| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]], [[cnk:intercorp:verze16|verze 16]]) |  5,mld. |  (✓)  |  (✓)  |  2008-2023  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků 
 +| [[cnk:psalm77|Žalm 77]] |  10 tis. |  (✓)  |  (✓)  |  2023  | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině |
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
Řádek 80: Řádek 88:
 | **Psané jednojazyčné speciální korpusy** |||||| | **Psané jednojazyčné speciální korpusy** ||||||
 | [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 |
-| [[cnk:dotko|DOTKO]] |  12 mil. |  ✗   ✗  |  2010  | korpus dolní lužické srbštiny, převažují texty z let 1848--1933 |+| [[cnk:dotko|DOTKO]] (verze 2) |  15,5 mil. |  ✓   ✗  |  2010  | korpus dolní lužické srbštiny |
 | [[cnk:eebo|EEBO]] |  730 mil. |  ✗  |  ✗  |  2015  | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | | [[cnk:eebo|EEBO]] |  730 mil. |  ✗  |  ✗  |  2015  | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] |
 | [[cnk:hotko|HOTKO]] (verze 2) |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny | | [[cnk:hotko|HOTKO]] (verze 2) |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny |