| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| cnk:uvod [2025/10/03 18:13] – [Přehled dostupných korpusů] michalkren | cnk:uvod [2026/01/23 10:18] (aktuální) – [Kdo tvoří Český národní korpus?] michalkren |
|---|
| ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění((U verzovaných korpusů, jako jsou např. [[cnk:syn|SYN]] nebo [[cnk:intercorp|InterCorp]], je uveden také rok zveřejnění první verze.)) ^ charakteristika korpusu ^ |
| | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| | | **[[cnk:struktura#korpusypsanesoucasnecestiny(radasyn)#obecne|Obecné korpusy]]** |||||| |
| | [[cnk:syn|SYN]] ([[cnk:syn:verze13|verze 13]]) | 5,3 mld. | ✓ | ✓ | 2010-2024 | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | | | [[cnk:syn|SYN]] ([[cnk:syn:verze14|verze 14]]) | 5,5 mld. | ✓ | ✓ | 2010-2025 | [[pojmy:verzovany|verzovaný]] korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty | |
| | | [[cnk:syn2025|SYN2025]] | 100 mil. | ✓ | ✓ | 2025 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2020–2024 | |
| | [[cnk:syn2020|SYN2020]] | 100 mil. | ✓ | ✓ | 2020 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 | | | [[cnk:syn2020|SYN2020]] | 100 mil. | ✓ | ✓ | 2020 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2015–2019 | |
| | [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | | | [[cnk:syn2015|SYN2015]] | 100 mil. | ✓ | ✓ | 2015 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 2010–2014, s novou [[cnk:klasifikace_textu_syn2015|klasifikací textů]] | |
| ^ <fs large>Korpusy generované velkými jazykovými modely (LLMs)</fs> ^^^^^^ | ^ <fs large>Korpusy generované velkými jazykovými modely (LLMs)</fs> ^^^^^^ |
| ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| | [[cnk:aibrown|AI Brown]] | 27 mil. | ✓ | ✓ | 2025 | žánrově pestrý korpus anglických textů vyprodukovaných velkými jazykovými modely | | | [[cnk:aibrown|AI Brown]] | 27 mil. | ✓ | ✓ | 2025 | žánrově pestrý korpus anglických textů vytvořených velkými jazykovými modely | |
| | [[cnk:aikoditex|AI Koditex]] | 21 mil. | ✓ | ✓ | 2025 | žánrově pestrý korpus českých textů vyprodukovaných velkými jazykovými modely | | | [[cnk:aikoditex|AI Koditex]] | 21 mil. | ✓ | ✓ | 2025 | žánrově pestrý korpus českých textů vytvořených velkými jazykovými modely | |
| |
| ====== Kdo tvoří Český národní korpus? ====== | ====== Kdo tvoří Český národní korpus? ====== |
| |
| Za tvorbou ČNK stojí **[[http://ucnk.ff.cuni.cz|Ústav Českého národního korpusu]]** ve spolupráci s **[[http://utkl.ff.cuni.cz/|Ústavem teoretické a komputační lingvistiky]]**; při budování korpusů hojně využívají nástroje vyvinuté **[[http://ufal.mff.cuni.cz/|Ústavem formální a aplikované lingvistiky]]**. | Za tvorbou ČNK stojí **[[https://ocnk.ff.cuni.cz/cs/|Oddělení Českého národního korpusu]]** Ústavu lingvistiky FF UK, při budování korpusů se hojně využívají nástroje vyvinuté **[[http://ufal.mff.cuni.cz/|Ústavem formální a aplikované lingvistiky]]**. |
| |
| ====== Jak lze korpusy ČNK využívat? ====== | ====== Jak lze korpusy ČNK využívat? ====== |