AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:uvod [2024/02/29 20:56] michalkrencnk:uvod [2024/11/14 12:47] (aktuální) – [Přehled dostupných korpusů] michalskrabal
Řádek 38: Řádek 38:
 | [[cnk:kh-dopisy|KH-DOPISY]] |  500 tis. |  ✗  |  ✗  |  2017  | korpus korespondence Karla Havlíčka | | [[cnk:kh-dopisy|KH-DOPISY]] |  500 tis. |  ✗  |  ✗  |  2017  | korpus korespondence Karla Havlíčka |
 | [[cnk:kh-noviny|KH-NOVINY]] |  1 mil. |  ✗  |  ✗  |  2021  | korpus publicistiky Karla Havlíčka | | [[cnk:kh-noviny|KH-NOVINY]] |  1 mil. |  ✗  |  ✗  |  2021  | korpus publicistiky Karla Havlíčka |
 +| [[cnk:klaus|Klaus]] |  1,5 mil. |  ✓  |  ✓  |  2024  | korpus textů Václava Klause st. |
 | [[cnk:orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | | [[cnk:orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] |
 | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** ||||||
Řádek 46: Řádek 47:
 | [[cnk:koditex|Koditex]] |  10,8 mil. |  ✓  |  ✓  |  2018  | korpus vytvořený pro účely multidimenzionální analýzy češtiny | | [[cnk:koditex|Koditex]] |  10,8 mil. |  ✓  |  ✓  |  2018  | korpus vytvořený pro účely multidimenzionální analýzy češtiny |
 | [[cnk:ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| | [[cnk:ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004|
-| [[cnk:ksp|KSP]] |  35,5 mil. |  ✓  |  ✓  |  2022  | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020|+| [[cnk:ksp|KSP]] (verze 2) |  37,5 mil. |  ✓  |  ✓  |  2022  | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020|
 | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů | | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů |
 | [[cnk:totalita|Totalita]] |  12,9 mil. |  ✓  |  ✓  |  2010  | korpus psaného jazyka komunistického režimu | | [[cnk:totalita|Totalita]] |  12,9 mil. |  ✓  |  ✓  |  2010  | korpus psaného jazyka komunistického režimu |
Řádek 54: Řádek 55:
 | **Obecné korpusy** |||||| | **Obecné korpusy** ||||||
 | [[cnk:orator|ORATOR]] (verze 2) |  1,2 mil. |  ✓  |  ✓  |  2019  | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí | | [[cnk:orator|ORATOR]] (verze 2) |  1,2 mil. |  ✓  |  ✓  |  2019  | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí |
-| [[cnk:ortofon|ORTOFON]] (verze 2) |  2,mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) |+| [[cnk:ortofon|ORTOFON]] (verze 3) |  2,mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) |
 | [[cnk:oral|ORAL]] (verze 1) |  5,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | [[cnk:oral|ORAL]] (verze 1) |  5,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
 | [[cnk:oral2013|ORAL2013]] |  2,8 mil. |  ✗  |  ✗  |  2013  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | [[cnk:oral2013|ORAL2013]] |  2,8 mil. |  ✗  |  ✗  |  2013  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
Řádek 75: Řádek 76:
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]], [[cnk:intercorp:verze16|verze 16]]) |  5,3 mld. |  (✓)  |  (✓)  |  2008-2023  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků |+| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze16|verze 16]], [[cnk:intercorp:verze16ud|verze 16ud]]) |  5,3 mld. |  (✓)  |  (✓)  |  2008-2024  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků |
 | [[cnk:psalm77|Žalm 77]] |  10 tis. |  (✓)  |  (✓)  |  2023  | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | | [[cnk:psalm77|Žalm 77]] |  10 tis. |  (✓)  |  (✓)  |  2023  | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině |
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** ||||||
Řádek 87: Řádek 88:
 | [[cnk:ukwac|ukWaC]] |  1 900 mil. |  ✓  |  ✓  |  2013  | webový korpus britské angličtiny | | [[cnk:ukwac|ukWaC]] |  1 900 mil. |  ✓  |  ✓  |  2013  | webový korpus britské angličtiny |
 | **Psané jednojazyčné speciální korpusy** |||||| | **Psané jednojazyčné speciální korpusy** ||||||
 +| [[cnk:baltischebriefe|Baltische Briefe]] |  300 tis. |  ✓  |  ✓  |  2024  | korpus textů německých historických novin Baltische Briefe |
 | [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 |
 | [[cnk:dotko|DOTKO]] (verze 2) |  15,5 mil. |  ✓  |  ✗  |  2010  | korpus dolní lužické srbštiny | | [[cnk:dotko|DOTKO]] (verze 2) |  15,5 mil. |  ✓  |  ✗  |  2010  | korpus dolní lužické srbštiny |