| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| cnk:uvod [2024/12/27 17:48] – [Přehled dostupných korpusů] michalkren | cnk:uvod [2025/10/03 18:19] (aktuální) – [Přehled dostupných korpusů] michalkren |
|---|
| ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| | **Obecné korpusy** |||||| | | **Obecné korpusy** |||||| |
| | [[cnk:orator|ORATOR]] (verze 2) | 1,2 mil. | ✓ | ✓ | 2019 | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí | | | [[cnk:orator|ORATOR]] (verze 3) | 1,2 mil. | ✓ | ✓ | 2019 | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí | |
| | [[cnk:ortofon|ORTOFON]] (verze 3) | 2,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:ortofon|ORTOFON]] (verze 3) | 2,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | |
| | [[cnk:oral|ORAL]] (verze 1) | 5,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | | [[cnk:oral|ORAL]] (verze 1) | 5,4 mil. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | |
| ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| | [[cnk:diakorp|DIAKORP]] (verze 6) | 3,4 mil. | ✗ | ✗ | 2005 | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK | | | [[cnk:diakorp|DIAKORP]] (verze 6) | 3,4 mil. | ✗ | ✗ | 2005 | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK | |
| | [[cnk:onomos|OnomOs]] | 200 tis. | ✓ | ✓ | 2023 | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit | | | [[cnk:onomos|OnomOs]] (verze 2) | 400 tis. | ✓ | ✓ | 2023 | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit | |
| ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^ | ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^ |
| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| |
| | [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | | [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | |
| | [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | | | [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | |
| | [[cnk:eebo|EEBO]] | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | | | [[cnk:eebo|EEBO]] (verze 2) | 1 300 mil. | ✓ | ✓ | 2015 | korpus anglických textů z období 1475--1700 z kolekce [[https://textcreationpartnership.org/tcp-texts/eebo-tcp-early-english-books-online/|Early English Books Online]] | |
| | [[cnk:hotko|HOTKO]] (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | | | [[cnk:hotko|HOTKO]] (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | |
| | [[cnk:lEstRepublicain|lEstRepublicain]] | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku //L’Est Républicain// | | | [[cnk:lEstRepublicain|lEstRepublicain]] | 73 mil. | ✓ | ✓ | 2013 | korpus textů francouzského regionálního deníku //L’Est Républicain// | |
| | [[cnk:nkjp|NKJP_1M]] | 1 mil. | ✓ | ✓ | 2018 | ručně označkovaný milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//) | | | [[cnk:nkjp|NKJP_1M]] | 1 mil. | ✓ | ✓ | 2018 | ručně označkovaný milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//) | |
| | [[cnk:obc|OBC]] | 24 mil. | ✗ | ✓ | 2021 | [[http://fedora.clarin-d.uni-saarland.de/oldbailey/index.html|Old Bailey Corpus]], záznamy soudních procesů z let 1720--1913 | | | [[cnk:obc|OBC]] | 24 mil. | ✗ | ✓ | 2021 | [[http://fedora.clarin-d.uni-saarland.de/oldbailey/index.html|Old Bailey Corpus]], záznamy soudních procesů z let 1720--1913 | |
| | ^ <fs large>Korpusy generované velkými jazykovými modely (LLMs)</fs> ^^^^^^ |
| | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| | | [[cnk:aibrown|AI Brown]] | 27 mil. | ✓ | ✓ | 2025 | žánrově pestrý korpus anglických textů vytvořených velkými jazykovými modely | |
| | | [[cnk:aikoditex|AI Koditex]] | 21 mil. | ✓ | ✓ | 2025 | žánrově pestrý korpus českých textů vytvořených velkými jazykovými modely | |
| | |
| ====== Kdo tvoří Český národní korpus? ====== | ====== Kdo tvoří Český národní korpus? ====== |
| |