AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:uvod [2025/03/17 16:56] – [Přehled dostupných korpusů] michalkrencnk:uvod [2025/10/03 18:19] (aktuální) – [Přehled dostupných korpusů] michalkren
Řádek 54: Řádek 54:
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
 | **Obecné korpusy** |||||| | **Obecné korpusy** ||||||
-| [[cnk:orator|ORATOR]] (verze 2) |  1,2 mil. |  ✓  |  ✓  |  2019  | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí |+| [[cnk:orator|ORATOR]] (verze 3) |  1,2 mil. |  ✓  |  ✓  |  2019  | [[pojmy:referencni|referenční]] korpus monologů s jednoúrovňovou transkripcí |
 | [[cnk:ortofon|ORTOFON]] (verze 3) |  2,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) | | [[cnk:ortofon|ORTOFON]] (verze 3) |  2,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (zahrnuje Čechy, Moravu a Slezsko) |
 | [[cnk:oral|ORAL]] (verze 1) |  5,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) | | [[cnk:oral|ORAL]] (verze 1) |  5,4 mil. |  ✓  |  ✓  |  2017  | [[pojmy:referencni|referenční]] korpus neformální mluvené češtiny (zahrnuje Čechy, Moravu a Slezsko) |
Řádek 72: Řádek 72:
 ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
 | [[cnk:diakorp|DIAKORP]] (verze 6) |  3,4 mil. |  ✗  |  ✗  |  2005  | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK | | [[cnk:diakorp|DIAKORP]] (verze 6) |  3,4 mil. |  ✗  |  ✗  |  2005  | [[pojmy:verzovany|verzovaný]] korpus diachronní složky ČNK |
-| [[cnk:onomos|OnomOs]] |  200 tis. |  ✓  |  ✓  |  2023  | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit |+| [[cnk:onomos|OnomOs]] (verze 2) |  400 tis. |  ✓  |  ✓  |  2023  | korpus vybraných čísel (Rudého) Práva s anotací jmenných entit |
 ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^ ^ <fs large>[[cnk:struktura#cizojazycnekorpusy|Korpusy cizojazyčné]]</fs> ^^^^^^
 | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** ||||||
Řádek 96: Řádek 96:
 | [[cnk:nkjp|NKJP_1M]] |  1 mil. |  ✓  |  ✓  |  2018  | ručně označkovaný milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//) | | [[cnk:nkjp|NKJP_1M]] |  1 mil. |  ✓  |  ✓  |  2018  | ručně označkovaný milionový vzorek korpusu polštiny NKJP (//Narodowy korpus języka polskiego//) |
 | [[cnk:obc|OBC]] |  24 mil. |  ✗  |  ✓  |  2021  | [[http://fedora.clarin-d.uni-saarland.de/oldbailey/index.html|Old Bailey Corpus]], záznamy soudních procesů z let 1720--1913 | | [[cnk:obc|OBC]] |  24 mil. |  ✗  |  ✓  |  2021  | [[http://fedora.clarin-d.uni-saarland.de/oldbailey/index.html|Old Bailey Corpus]], záznamy soudních procesů z let 1720--1913 |
 +^ <fs large>Korpusy generované velkými jazykovými modely (LLMs)</fs> ^^^^^^
 +^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^
 +| [[cnk:aibrown|AI Brown]] |  27 mil. |  ✓  |  ✓  |  2025  | žánrově pestrý korpus anglických textů vytvořených velkými jazykovými modely |
 +| [[cnk:aikoditex|AI Koditex]] |  21 mil. |  ✓  |  ✓  |  2025  | žánrově pestrý korpus českých textů vytvořených velkými jazykovými modely |
 +
 ====== Kdo tvoří Český národní korpus? ====== ====== Kdo tvoří Český národní korpus? ======