AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:uvod [2023/02/26 21:29] jankrivancnk:uvod [2023/10/11 17:51] – [Přehled dostupných korpusů] alexandrrosen
Řádek 61: Řádek 61:
 | [[cnk:bmk|BMK]] |  490 tis. |  ✗  |  ✗  |  2002  | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století | | [[cnk:bmk|BMK]] |  490 tis. |  ✗  |  ✗  |  2002  | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století |
 | [[cnk:dialekt|DIALEKT]] (verze 2) |  223 tis. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí  | | [[cnk:dialekt|DIALEKT]] (verze 2) |  223 tis. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí  |
 +| [[cnk:jazyky-v-migraci|Jazyky v migraci]] |  294 tis. |  ✓  |  ✓  |  2022  | korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích |
 | [[cnk:lindsei_cz|LINDSEI_CZ]] |  120 tis. |  ✗  |  ✗  |  2017  | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 | | [[cnk:lindsei_cz|LINDSEI_CZ]] |  120 tis. |  ✗  |  ✗  |  2017  | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 |
 | [[cnk:pmk|PMK]] |  675 tis. |  ✗  |  ✗  |  2001  | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století | | [[cnk:pmk|PMK]] |  675 tis. |  ✗  |  ✗  |  2001  | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století |
Řádek 66: Řádek 67:
 | [[cnk:speeches|SPEECHES]] |  215 tis. |  ✓  |  ✓  |  2015  | korpus prezidentských projevů | | [[cnk:speeches|SPEECHES]] |  215 tis. |  ✓  |  ✓  |  2015  | korpus prezidentských projevů |
 | [[cnk:parlcorp|Parlcorp]] |  38 mil. |  ✓  |  ✓  |  2021  | korpus projevů v poslanecké sněmovně (1993-2021) | | [[cnk:parlcorp|Parlcorp]] |  38 mil. |  ✓  |  ✓  |  2021  | korpus projevů v poslanecké sněmovně (1993-2021) |
-| [[cnk:jazyky-v-migraci|Jazyky v migraci]] |  294 tis. |  ✓  |  ✓  |  2023  | korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích | 
 ^ <fs large>[[cnk:struktura#diachronnikorpus|Korpus psaného jazyka (diachronní)]]</fs> ^^^^^^ ^ <fs large>[[cnk:struktura#diachronnikorpus|Korpus psaného jazyka (diachronní)]]</fs> ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
Řádek 73: Řádek 73:
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]]) |  1,mld. |  (✓)  |  (✓)  |  2008-2022  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 41 dalších jazyků |+| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]], [[cnk:intercorp:verze16|verze 16]]) |  5,mld. |  (✓)  |  (✓)  |  2008-2023  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků |
 | [[cnk:psalm77|Žalm 77]] |  10 tis. |  (✓)  |  (✓)  |  2023  | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | | [[cnk:psalm77|Žalm 77]] |  10 tis. |  (✓)  |  (✓)  |  2023  | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině |
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** ||||||
Řádek 86: Řádek 86:
 | **Psané jednojazyčné speciální korpusy** |||||| | **Psané jednojazyčné speciální korpusy** ||||||
 | [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 |
-| [[cnk:dotko|DOTKO]] |  12 mil. |  ✗   ✗  |  2010  | korpus dolní lužické srbštiny, převažují texty z let 1848--1933 |+| [[cnk:dotko|DOTKO]] (verze 2) |  15,5 mil. |  ✓   ✗  |  2010  | korpus dolní lužické srbštiny |
 | [[cnk:eebo|EEBO]] |  730 mil. |  ✗  |  ✗  |  2015  | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | | [[cnk:eebo|EEBO]] |  730 mil. |  ✗  |  ✗  |  2015  | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] |
 | [[cnk:hotko|HOTKO]] (verze 2) |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny | | [[cnk:hotko|HOTKO]] (verze 2) |  36 mil. |  ✗  |  ✗  |  2013  | korpus horní lužické srbštiny |