Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:uvod [2023/09/27 13:34] – [Přehled dostupných korpusů] michalkren | cnk:uvod [2024/11/14 12:47] (aktuální) – [Přehled dostupných korpusů] michalskrabal |
---|
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^ |
| **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| | | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| |
| [[cnk:syn|SYN]] ([[cnk:syn:verze11|verze 11]]) | 5 mld. | ✓ | ✓ | 2010-2022 | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | | | [[cnk:syn|SYN]] ([[cnk:syn:verze12|verze 12]]) | 5 mld. | ✓ | ✓ | 2010-2023 | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | |
| [[cnk:syn2020|SYN2020]] | 100 mil. | ✓ | ✓ | 2020 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 | | | [[cnk:syn2020|SYN2020]] | 100 mil. | ✓ | ✓ | 2020 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 | |
| [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | | | [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | |
| [[cnk:kh-dopisy|KH-DOPISY]] | 500 tis. | ✗ | ✗ | 2017 | korpus korespondence Karla Havlíčka | | | [[cnk:kh-dopisy|KH-DOPISY]] | 500 tis. | ✗ | ✗ | 2017 | korpus korespondence Karla Havlíčka | |
| [[cnk:kh-noviny|KH-NOVINY]] | 1 mil. | ✗ | ✗ | 2021 | korpus publicistiky Karla Havlíčka | | | [[cnk:kh-noviny|KH-NOVINY]] | 1 mil. | ✗ | ✗ | 2021 | korpus publicistiky Karla Havlíčka | |
| | [[cnk:klaus|Klaus]] | 1,5 mil. | ✓ | ✓ | 2024 | korpus textů Václava Klause st. | |
| [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | | | [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | |
| **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| | | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| |
| [[cnk:koditex|Koditex]] | 10,8 mil. | ✓ | ✓ | 2018 | korpus vytvořený pro účely multidimenzionální analýzy češtiny | | | [[cnk:koditex|Koditex]] | 10,8 mil. | ✓ | ✓ | 2018 | korpus vytvořený pro účely multidimenzionální analýzy češtiny | |
| [[cnk:ksk-dopisy|KSK-DOPISY]] | 800 tis. | ✗ | ✗ | 2006 | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| | | [[cnk:ksk-dopisy|KSK-DOPISY]] | 800 tis. | ✗ | ✗ | 2006 | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| |
| [[cnk:ksp|KSP]] | 35,5 mil. | ✓ | ✓ | 2022 | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020| | | [[cnk:ksp|KSP]] (verze 2) | 37,5 mil. | ✓ | ✓ | 2022 | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020| |
| [[cnk:link|LINK]] | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů | | | [[cnk:link|LINK]] | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů | |
| [[cnk:totalita|Totalita]] | 12,9 mil. | ✓ | ✓ | 2010 | korpus psaného jazyka komunistického režimu | | | [[cnk:totalita|Totalita]] | 12,9 mil. | ✓ | ✓ | 2010 | korpus psaného jazyka komunistického režimu | |
| | [[cnk:veda|Věda]] | 15 mil. | ✓ | ✓ | 2023 | korpus odborných textů, komplement [[https://db.korpus.cz/search/acphrase|Frázové banky akademické češtiny]] | |
^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ | ^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| **Obecné korpusy** |||||| | | **Obecné korpusy** |||||| |
| [[cnk:orator|ORATOR]] (verze 2) | 1,2 mil. | ✓ | ✓ | 2019 | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí | | | [[cnk:orator|ORATOR]] (verze 2) | 1,2 mil. | ✓ | ✓ | 2019 | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí | |
| [[cnk:ortofon|ORTOFON]] (verze 2) | 2,1 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:ortofon|ORTOFON]] (verze 3) | 2,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | |
| [[cnk:oral|ORAL]] (verze 1) | 5,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:oral|ORAL]] (verze 1) | 5,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | |
| [[cnk:oral2013|ORAL2013]] | 2,8 mil. | ✗ | ✗ | 2013 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:oral2013|ORAL2013]] | 2,8 mil. | ✗ | ✗ | 2013 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| [[cnk:diakorp|DIAKORP]] (verze 6) | 3,4 mil. | ✗ | ✗ | 2005 | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK | | | [[cnk:diakorp|DIAKORP]] (verze 6) | 3,4 mil. | ✗ | ✗ | 2005 | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK | |
| | [[cnk:onomos|OnomOs]] | 200 tis. | ✓ | ✓ | 2023 | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit | |
^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^ | ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^ |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]], [[cnk:intercorp:verze16|verze 16]] ) | 1,8 mld. | (✓) | (✓) | 2008-2022 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 41 dalších jazyků | | | [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze16|verze 16]], [[cnk:intercorp:verze16ud|verze 16ud]]) | 5,3 mld. | (✓) | (✓) | 2008-2024 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků | |
| [[cnk:psalm77|Žalm 77]] | 10 tis. | (✓) | (✓) | 2023 | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | | | [[cnk:psalm77|Žalm 77]] | 10 tis. | (✓) | (✓) | 2023 | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| |
| [[cnk:ukwac|ukWaC]] | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny | | | [[cnk:ukwac|ukWaC]] | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny | |
| **Psané jednojazyčné speciální korpusy** |||||| | | **Psané jednojazyčné speciální korpusy** |||||| |
| | [[cnk:baltischebriefe|Baltische Briefe]] | 300 tis. | ✓ | ✓ | 2024 | korpus textů německých historických novin Baltische Briefe | |
| [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | | [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | |
| [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | | | [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | |