AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:uvod [2022/06/29 16:56] Michal Škrabalcnk:uvod [2024/02/29 20:56] (aktuální) Michal Křen
Řádek 13: Řádek 13:
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^
 | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** ||||||
-| [[cnk:syn|SYN]] ([[cnk:syn:verze9|verze 9]], [[cnk:syn:verze10|10]]) |  4,9 mld. |  ✓  |  ✓  |  2010-2022  | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |+| [[cnk:syn|SYN]] ([[cnk:syn:verze12|verze 12]]) |  mld. |  ✓  |  ✓  |  2010-2023  | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |
 | [[cnk:syn2020|SYN2020]] |  100 mil. |  ✓  |  ✓  |  2020  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 | | [[cnk:syn2020|SYN2020]] |  100 mil. |  ✓  |  ✓  |  2020  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 |
 | [[cnk:syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | | [[cnk:syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] |
Řádek 23: Řádek 23:
 | [[cnk:syn2000|SYN2000]] |  100 mil. |  ✓  |  ✓  |  2000  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 | | [[cnk:syn2000|SYN2000]] |  100 mil. |  ✓  |  ✓  |  2000  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 |
 | **[[cnk:struktura#webove|Webové korpusy]]** |||||| | **[[cnk:struktura#webove|Webové korpusy]]** ||||||
-| [[cnk:online|ONLINE]] |  > 6 mld. |  ✓  |  ✓  |  2020  | monitorovací korpus českého internetu |+| [[cnk:online|ONLINE]] ([[cnk:online:gen2|2. generace]]) |  > 6 mld. |  ✓  |  ✓  |  2020  | monitorovací korpus českého internetu |
 | [[cnk:net|NET]] (verze 2) |  176 mil. |  ✓  |  ✓  |  2019  | korpus polooficiální internetové komunikace | | [[cnk:net|NET]] (verze 2) |  176 mil. |  ✓  |  ✓  |  2019  | korpus polooficiální internetové komunikace |
 | **[[pojmy:akvizicni_korpus|Akviziční korpusy]]** |||||| | **[[pojmy:akvizicni_korpus|Akviziční korpusy]]** ||||||
Řádek 31: Řádek 31:
 | [[cnk:czesl-sgt-basic|CzeSL-SGT-basic]] |  960 tis. |  ✓  |  ✓  |  2019  | korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní | | [[cnk:czesl-sgt-basic|CzeSL-SGT-basic]] |  960 tis. |  ✓  |  ✓  |  2019  | korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní |
 | [[cnk:skript2012|SKRIPT2012]] |  590 tis. |  ✓  |  ✓  |  2013  | korpus školních písemných prací | | [[cnk:skript2012|SKRIPT2012]] |  590 tis. |  ✓  |  ✓  |  2013  | korpus školních písemných prací |
 +| [[cnk:vespa_cz|VESPA_CZ]] |  500 tis. |  ✓  |  ✓  |  2022  | [[pojmy:zakovsky|žákovský]] korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1 |
 | **Autorské korpusy** |||||| | **Autorské korpusy** ||||||
 | [[cnk:capek|Capek]] |  2,3 mil. |  ✓  |  ✓  |  2007  | autorský korpus pouze vlastních textů Karla Čapka | | [[cnk:capek|Capek]] |  2,3 mil. |  ✓  |  ✓  |  2007  | autorský korpus pouze vlastních textů Karla Čapka |
Řádek 47: Řádek 48:
 | [[cnk:ksp|KSP]] |  35,5 mil. |  ✓  |  ✓  |  2022  | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020| | [[cnk:ksp|KSP]] |  35,5 mil. |  ✓  |  ✓  |  2022  | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020|
 | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů | | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů |
 +| [[cnk:totalita|Totalita]] |  12,9 mil. |  ✓  |  ✓  |  2010  | korpus psaného jazyka komunistického režimu |
 +| [[cnk:veda|Věda]] |  15 mil. |  ✓  |  ✓  |  2023  | korpus odborných textů, komplement [[https://db.korpus.cz/search/acphrase|Frázové banky akademické češtiny]] |
 ^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ ^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
Řádek 59: Řádek 62:
 | [[cnk:bmk|BMK]] |  490 tis. |  ✗  |  ✗  |  2002  | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století | | [[cnk:bmk|BMK]] |  490 tis. |  ✗  |  ✗  |  2002  | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století |
 | [[cnk:dialekt|DIALEKT]] (verze 2) |  223 tis. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí  | | [[cnk:dialekt|DIALEKT]] (verze 2) |  223 tis. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí  |
 +| [[cnk:jazyky-v-migraci|Jazyky v migraci]] |  294 tis. |  ✓  |  ✓  |  2022  | korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích |
 | [[cnk:lindsei_cz|LINDSEI_CZ]] |  120 tis. |  ✗  |  ✗  |  2017  | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 | | [[cnk:lindsei_cz|LINDSEI_CZ]] |  120 tis. |  ✗  |  ✗  |  2017  | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 |
 | [[cnk:pmk|PMK]] |  675 tis. |  ✗  |  ✗  |  2001  | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století | | [[cnk:pmk|PMK]] |  675 tis. |  ✗  |  ✗  |  2001  | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století |
Řádek 67: Řádek 71:
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
 | [[cnk:diakorp|DIAKORP]] (verze 6) |  3,4 mil. |  ✗  |  ✗  |  2005  | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK | | [[cnk:diakorp|DIAKORP]] (verze 6) |  3,4 mil. |  ✗  |  ✗  |  2005  | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK |
 +| [[cnk:onomos|OnomOs]] |  200 tis. |  ✓  |  ✓  |  2023  | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit |
 ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^ ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze14|verze 14]]) |  1,mld. |  (✓)  |  (✓)  |  2008-2022  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 41 dalších jazyků |+| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]], [[cnk:intercorp:verze16|verze 16]]) |  5,mld. |  (✓)  |  (✓)  |  2008-2023  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků 
 +| [[cnk:psalm77|Žalm 77]] |  10 tis. |  (✓)  |  (✓)  |  2023  | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině |
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
Řádek 82: Řádek 88:
 | **Psané jednojazyčné speciální korpusy** |||||| | **Psané jednojazyčné speciální korpusy** ||||||
 | [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 |
-| [[cnk:dotko|DOTKO]] |  12 mil. |  ✗   ✗  |  2010  | korpus dolní lužické srbštiny, převažují texty z let 1848--1933 |+| [[cnk:dotko|DOTKO]] (verze 2) |  15,5 mil. |  ✓   ✗  |  2010  | korpus dolní lužické srbštiny |
 | [[cnk:eebo|EEBO]] |  730 mil. |  ✗  |  ✗  |  2015  | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | | [[cnk:eebo|EEBO]] |  730 mil. |  ✗  |  ✗  |  2015  | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] |
 | [[cnk:hotko|HOTKO]] (verze 2) |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny | | [[cnk:hotko|HOTKO]] (verze 2) |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny |