Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:uvod [2019/12/20 11:49] – [Přehled dostupných korpusů] michalkren | cnk:uvod [2019/12/20 15:44] – [Přehled dostupných korpusů] michalkren |
---|
| [[cnk:syn2000|SYN2000]] | 100 mil. | ✓ | ✓ | 2000 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 | | | [[cnk:syn2000|SYN2000]] | 100 mil. | ✓ | ✓ | 2000 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 | |
| **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| | | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#specializovane|Specializované korpusy]]** |||||| |
| | [[cnk:capek|Capek]] | 2,3 mil. | ✓ | ✓ | 2007 | autorský korpus pouze vlastních textů Karla Čapka | |
| | [[cnk:capek|Capek_uplny]] | 2,5 mil. | ✓ | ✓ | 2007 | autorský korpus všech textů Karla Čapka | |
| | [[cnk:cep|Cep]] | 420 tis. | ✓ | ✓ | 2015 | autorský korpus prozaických textů Jana Čepa | |
| [[cnk:czesl-plain|CZESL-PLAIN]] | 2 mil. | ✗ | ✗ | 2012 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích | | | [[cnk:czesl-plain|CZESL-PLAIN]] | 2 mil. | ✗ | ✗ | 2012 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích | |
| [[cnk:czesl-sgt|CZESL-SGT]] | 960 tis. | ✓ | ✓ | 2014 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací| | | [[cnk:czesl-sgt|CZESL-SGT]] | 960 tis. | ✓ | ✓ | 2014 | [[pojmy:zakovsky|žákovský]] korpus češtiny nerodilých mluvčích s metadaty a automatickou anotací| |
| [[cnk:ksk-dopisy|KSK-DOPISY]] | 800 tis. | ✗ | ✗ | 2006 | Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| | | [[cnk:ksk-dopisy|KSK-DOPISY]] | 800 tis. | ✗ | ✗ | 2006 | Korpus soukromé korespondence: přepisy ručně psaných dopisů z let 1990–2004| |
| [[cnk:link|LINK]] | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů | | | [[cnk:link|LINK]] | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů | |
| | [[cnk:net|NET]] | 41 mil. | ✓ | ✓ | 2019 | korpus polooficiální internetové komunikace | |
| [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | | | [[cnk:orwell|ORWELL]] | 80 tis. | ✓ | ✓ | 2003 | ručně označkovaný korpus Orwellova románu [[wp>Nineteen_Eighty-Four|1984]] | |
| [[cnk:skript2012|SKRIPT2012]] | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací | | | [[cnk:skript2012|SKRIPT2012]] | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací | |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| **Obecné korpusy** |||||| | | **Obecné korpusy** |||||| |
| | [[cnk:orator|ORATOR]] | 580 tis. | ✓ | ✓ | 2019 | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí | |
| [[cnk:ortofon|ORTOFON]] | 1 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:ortofon|ORTOFON]] | 1 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | |
| [[cnk:oral|ORAL]] (verze 1) | 5,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:oral|ORAL]] (verze 1) | 5,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | |