Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:uvod [2024/11/07 11:38] – jankocek | cnk:uvod [2025/03/17 16:56] (aktuální) – [Přehled dostupných korpusů] michalkren |
---|
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^ |
| **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| | | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| |
| [[cnk:syn|SYN]] ([[cnk:syn:verze12|verze 12]]) | 5 mld. | ✓ | ✓ | 2010-2023 | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | | | [[cnk:syn|SYN]] ([[cnk:syn:verze13|verze 13]]) | 5,3 mld. | ✓ | ✓ | 2010-2024 | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | |
| [[cnk:syn2020|SYN2020]] | 100 mil. | ✓ | ✓ | 2020 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 | | | [[cnk:syn2020|SYN2020]] | 100 mil. | ✓ | ✓ | 2020 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 | |
| [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | | | [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | |
| [[cnk:kh-dopisy|KH-DOPISY]] | 500 tis. | ✗ | ✗ | 2017 | korpus korespondence Karla Havlíčka | | | [[cnk:kh-dopisy|KH-DOPISY]] | 500 tis. | ✗ | ✗ | 2017 | korpus korespondence Karla Havlíčka | |
| [[cnk:kh-noviny|KH-NOVINY]] | 1 mil. | ✗ | ✗ | 2021 | korpus publicistiky Karla Havlíčka | | | [[cnk:kh-noviny|KH-NOVINY]] | 1 mil. | ✗ | ✗ | 2021 | korpus publicistiky Karla Havlíčka | |
| | [[cnk:klaus|Klaus]] | 1,5 mil. | ✓ | ✓ | 2024 | korpus textů Václava Klause st. | |
| [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | | | [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | |
| **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| | | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| |
| [[cnk:ukwac|ukWaC]] | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny | | | [[cnk:ukwac|ukWaC]] | 1 900 mil. | ✓ | ✓ | 2013 | webový korpus britské angličtiny | |
| **Psané jednojazyčné speciální korpusy** |||||| | | **Psané jednojazyčné speciální korpusy** |||||| |
| [[cnk:baltischebriefe|baltische_briefe]] | 45 tis. | ✓ | ✓ | 2024 | korpus textů historických novin Baltische Briefe z let 1949, 1950, 1988, 1991 a 2004 | | | [[cnk:baltischebriefe|Baltische Briefe]] | 300 tis. | ✓ | ✓ | 2024 | korpus textů německých historických novin Baltische Briefe | |
| [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | | [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | |
| [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | | | [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | |
| [[cnk:eebo|EEBO]] | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | | | [[cnk:eebo|EEBO]] (verze 2) | 1 300 mil. | ✓ | ✓ | 2015 | korpus anglických textů z období 1475--1700 z kolekce [[https://textcreationpartnership.org/tcp-texts/eebo-tcp-early-english-books-online/|Early English Books Online]] | |
| [[cnk:hotko|HOTKO]] (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | | | [[cnk:hotko|HOTKO]] (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | |
| [[cnk:lEstRepublicain|lEstRepublicain]] | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku //L’Est Républicain// | | | [[cnk:lEstRepublicain|lEstRepublicain]] | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku //L’Est Républicain// | |