Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:uvod [2024/10/01 10:23] – [Přehled dostupných korpusů] alexandrrosen | cnk:uvod [2024/11/14 12:47] (aktuální) – [Přehled dostupných korpusů] michalskrabal |
---|
| [[cnk:kh-dopisy|KH-DOPISY]] | 500 tis. | ✗ | ✗ | 2017 | korpus korespondence Karla Havlíčka | | | [[cnk:kh-dopisy|KH-DOPISY]] | 500 tis. | ✗ | ✗ | 2017 | korpus korespondence Karla Havlíčka | |
| [[cnk:kh-noviny|KH-NOVINY]] | 1 mil. | ✗ | ✗ | 2021 | korpus publicistiky Karla Havlíčka | | | [[cnk:kh-noviny|KH-NOVINY]] | 1 mil. | ✗ | ✗ | 2021 | korpus publicistiky Karla Havlíčka | |
| | [[cnk:klaus|Klaus]] | 1,5 mil. | ✓ | ✓ | 2024 | korpus textů Václava Klause st. | |
| [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | | | [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | |
| **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| | | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze16ud|verze 16ud]], [[cnk:intercorp:verze16|verze 16]]) | 5,3 mld. | (✓) | (✓) | 2008-2024 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků | | | [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze16|verze 16]], [[cnk:intercorp:verze16ud|verze 16ud]]) | 5,3 mld. | (✓) | (✓) | 2008-2024 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků | |
| [[cnk:psalm77|Žalm 77]] | 10 tis. | (✓) | (✓) | 2023 | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | | | [[cnk:psalm77|Žalm 77]] | 10 tis. | (✓) | (✓) | 2023 | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| |
| [[cnk:ukwac|ukWaC]] | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny | | | [[cnk:ukwac|ukWaC]] | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny | |
| **Psané jednojazyčné speciální korpusy** |||||| | | **Psané jednojazyčné speciální korpusy** |||||| |
| | [[cnk:baltischebriefe|Baltische Briefe]] | 300 tis. | ✓ | ✓ | 2024 | korpus textů německých historických novin Baltische Briefe | |
| [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | | [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | |
| [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | | | [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | |