AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:uvod [2023/10/11 17:51] – [Přehled dostupných korpusů] alexandrrosencnk:uvod [2024/11/14 12:47] (aktuální) – [Přehled dostupných korpusů] michalskrabal
Řádek 13: Řádek 13:
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^
 | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** ||||||
-| [[cnk:syn|SYN]] ([[cnk:syn:verze11|verze 11]]) |  5 mld. |  ✓  |  ✓  |  2010-2022  | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |+| [[cnk:syn|SYN]] ([[cnk:syn:verze12|verze 12]]) |  5 mld. |  ✓  |  ✓  |  2010-2023  | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty |
 | [[cnk:syn2020|SYN2020]] |  100 mil. |  ✓  |  ✓  |  2020  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 | | [[cnk:syn2020|SYN2020]] |  100 mil. |  ✓  |  ✓  |  2020  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 |
 | [[cnk:syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | | [[cnk:syn2015|SYN2015]] |  100 mil. |  ✓  |  ✓  |  2015  | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] |
Řádek 38: Řádek 38:
 | [[cnk:kh-dopisy|KH-DOPISY]] |  500 tis. |  ✗  |  ✗  |  2017  | korpus korespondence Karla Havlíčka | | [[cnk:kh-dopisy|KH-DOPISY]] |  500 tis. |  ✗  |  ✗  |  2017  | korpus korespondence Karla Havlíčka |
 | [[cnk:kh-noviny|KH-NOVINY]] |  1 mil. |  ✗  |  ✗  |  2021  | korpus publicistiky Karla Havlíčka | | [[cnk:kh-noviny|KH-NOVINY]] |  1 mil. |  ✗  |  ✗  |  2021  | korpus publicistiky Karla Havlíčka |
 +| [[cnk:klaus|Klaus]] |  1,5 mil. |  ✓  |  ✓  |  2024  | korpus textů Václava Klause st. |
 | [[cnk:orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | | [[cnk:orwell|ORWELL]] |  80 tis. |  ✓  |  ✓  |  2003  | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] |
 | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** ||||||
Řádek 46: Řádek 47:
 | [[cnk:koditex|Koditex]] |  10,8 mil. |  ✓  |  ✓  |  2018  | korpus vytvořený pro účely multidimenzionální analýzy češtiny | | [[cnk:koditex|Koditex]] |  10,8 mil. |  ✓  |  ✓  |  2018  | korpus vytvořený pro účely multidimenzionální analýzy češtiny |
 | [[cnk:ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| | [[cnk:ksk-dopisy|KSK-DOPISY]] |  800 tis. |  ✗  |  ✗  |  2006  | korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004|
-| [[cnk:ksp|KSP]] |  35,5 mil. |  ✓  |  ✓  |  2022  | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020|+| [[cnk:ksp|KSP]] (verze 2) |  37,5 mil. |  ✓  |  ✓  |  2022  | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020|
 | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů | | [[cnk:link|LINK]] |  1,8 mil. |  ✓  |  ✓  |  2010  | korpus sestavený z odborných lingvistických textů |
 | [[cnk:totalita|Totalita]] |  12,9 mil. |  ✓  |  ✓  |  2010  | korpus psaného jazyka komunistického režimu | | [[cnk:totalita|Totalita]] |  12,9 mil. |  ✓  |  ✓  |  2010  | korpus psaného jazyka komunistického režimu |
 +| [[cnk:veda|Věda]] |  15 mil. |  ✓  |  ✓  |  2023  | korpus odborných textů, komplement [[https://db.korpus.cz/search/acphrase|Frázové banky akademické češtiny]] |
 ^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ ^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
 | **Obecné korpusy** |||||| | **Obecné korpusy** ||||||
 | [[cnk:orator|ORATOR]] (verze 2) |  1,2 mil. |  ✓  |  ✓  |  2019  | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí | | [[cnk:orator|ORATOR]] (verze 2) |  1,2 mil. |  ✓  |  ✓  |  2019  | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí |
-| [[cnk:ortofon|ORTOFON]] (verze 2) |  2,mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) |+| [[cnk:ortofon|ORTOFON]] (verze 3) |  2,mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) |
 | [[cnk:oral|ORAL]] (verze 1) |  5,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | [[cnk:oral|ORAL]] (verze 1) |  5,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
 | [[cnk:oral2013|ORAL2013]] |  2,8 mil. |  ✗  |  ✗  |  2013  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | [[cnk:oral2013|ORAL2013]] |  2,8 mil. |  ✗  |  ✗  |  2013  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
Řádek 70: Řádek 72:
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
 | [[cnk:diakorp|DIAKORP]] (verze 6) |  3,4 mil. |  ✗  |  ✗  |  2005  | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK | | [[cnk:diakorp|DIAKORP]] (verze 6) |  3,4 mil. |  ✗  |  ✗  |  2005  | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK |
 +| [[cnk:onomos|OnomOs]] |  200 tis. |  ✓  |  ✓  |  2023  | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit |
 ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^ ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** ||||||
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
-| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]], [[cnk:intercorp:verze16|verze 16]]) |  5,3 mld. |  (✓)  |  (✓)  |  2008-2023  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků |+| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze16|verze 16]], [[cnk:intercorp:verze16ud|verze 16ud]]) |  5,3 mld. |  (✓)  |  (✓)  |  2008-2024  | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků |
 | [[cnk:psalm77|Žalm 77]] |  10 tis. |  (✓)  |  (✓)  |  2023  | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | | [[cnk:psalm77|Žalm 77]] |  10 tis. |  (✓)  |  (✓)  |  2023  | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině |
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** ||||||
Řádek 85: Řádek 88:
 | [[cnk:ukwac|ukWaC]] |  1 900 mil. |  ✓  |  ✓  |  2013  | webový korpus britské angličtiny | | [[cnk:ukwac|ukWaC]] |  1 900 mil. |  ✓  |  ✓  |  2013  | webový korpus britské angličtiny |
 | **Psané jednojazyčné speciální korpusy** |||||| | **Psané jednojazyčné speciální korpusy** ||||||
 +| [[cnk:baltischebriefe|Baltische Briefe]] |  300 tis. |  ✓  |  ✓  |  2024  | korpus textů německých historických novin Baltische Briefe |
 | [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | [[cnk:codit|CODIT]] |  27 mil. |  ✗  |  ✗  |  2021  | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 |
 | [[cnk:dotko|DOTKO]] (verze 2) |  15,5 mil. |  ✓  |  ✗  |  2010  | korpus dolní lužické srbštiny | | [[cnk:dotko|DOTKO]] (verze 2) |  15,5 mil. |  ✓  |  ✗  |  2010  | korpus dolní lužické srbštiny |