Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:uvod [2023/02/23 14:43] – [Přehled dostupných korpusů] michalkren | cnk:uvod [2023/10/11 17:51] – [Přehled dostupných korpusů] alexandrrosen |
---|
| [[cnk:bmk|BMK]] | 490 tis. | ✗ | ✗ | 2002 | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století | | | [[cnk:bmk|BMK]] | 490 tis. | ✗ | ✗ | 2002 | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století | |
| [[cnk:dialekt|DIALEKT]] (verze 2) | 223 tis. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí | | | [[cnk:dialekt|DIALEKT]] (verze 2) | 223 tis. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí | |
| | [[cnk:jazyky-v-migraci|Jazyky v migraci]] | 294 tis. | ✓ | ✓ | 2022 | korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích | |
| [[cnk:lindsei_cz|LINDSEI_CZ]] | 120 tis. | ✗ | ✗ | 2017 | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 | | | [[cnk:lindsei_cz|LINDSEI_CZ]] | 120 tis. | ✗ | ✗ | 2017 | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 | |
| [[cnk:pmk|PMK]] | 675 tis. | ✗ | ✗ | 2001 | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století | | | [[cnk:pmk|PMK]] | 675 tis. | ✗ | ✗ | 2001 | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století | |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]]) | 1,8 mld. | (✓) | (✓) | 2008-2022 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 41 dalších jazyků | | | [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]], [[cnk:intercorp:verze16|verze 16]]) | 5,3 mld. | (✓) | (✓) | 2008-2023 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků | |
| [[cnk:psalm77|Žalm 77]] | 10 tis. | (✓) | (✓) | 2023 | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | | | [[cnk:psalm77|Žalm 77]] | 10 tis. | (✓) | (✓) | 2023 | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| |
| **Psané jednojazyčné speciální korpusy** |||||| | | **Psané jednojazyčné speciální korpusy** |||||| |
| [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | | [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | |
| [[cnk:dotko|DOTKO]] | 12 mil. | ✗ | ✗ | 2010 | korpus dolní lužické srbštiny, převažují texty z let 1848--1933 | | | [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | |
| [[cnk:eebo|EEBO]] | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | | | [[cnk:eebo|EEBO]] | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | |
| [[cnk:hotko|HOTKO]] (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | | | [[cnk:hotko|HOTKO]] (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | |