Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:online [2020/10/01 16:24] – [source] vaclavcvrcek | cnk:online [2022/12/22 15:23] (aktuální) – [Generace korpusů ONLINE] vaclavcvrcek | ||
---|---|---|---|
Řádek 2: | Řádek 2: | ||
====== Korpusy ONLINE ====== | ====== Korpusy ONLINE ====== | ||
- | Korpusy | + | Korpusy |
- | Obě části korpusu | + | Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah **neustále |
- | * **ONLINE_NOW** -- obsahuje data z aktuálního | + | |
- | * **ONLINE_ARCHIVE** -- obsahuje data od února 2017 až po měsíc, jímž začíná ONLINE_NOW; aktualizuje | + | |
- | <WRAP right 35%> | + | Korpusy jsou [[pojmy:lemma|lemmatizovány]] a [[pojmy:morfologicka_analyza|morfologicky značkovány]] pomocí aktuálních nástrojů, které se užívají pro analýzu korpusů |
- | ^ <fs medium> | + | |
- | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet | + | |
- | ^ ::: ^ Počet vět <s> | 506,6 mil. (v době zveřejnění) | | + | |
- | ^ Další informace ^ [[pojmy:referencni|Referenční]] | NE | | + | |
- | ^ ::: ^ [[pojmy: | + | |
- | ^ ::: ^ Rok zveřejnění | 2020 | | + | |
- | </ | + | |
- | Korpusy se v časových obdobích, které pokrývají, | + | ===== Generace |
- | ==== Aktualizace ==== | + | Korpus ONLINE se vyskytuje ve dvou generacích: |
- | Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah **neustále mění**, a není možné se vracet k předchozím podobám korpusu. Vzhledem k tomu, že se můžou měnit i vstupní data (zdroje), nelze zaručit, že se nebude měnit ani struktura či způsob anotace korpusu. | + | ^ Generace ^ Název korpusu ^ Období ^ Složení ^ Rok zveřejnění ^ |
+ | | 1. | [[cnk: | ||
+ | | 2. | [[cnk: | ||
- | Aktualizace korpusu ONLINE_NOW probíhá každý den cca v 9:00, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 4 mil. do 8 mil. tokenů. Při změně měsíce (první den v měsíci), je nejstarší měsíc korpusu ONLINE_NOW připojen ke korpusu ONLINE_ARCHIVE. | ||
- | Aktualizace korpusu ONLINE_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE_NOW (měsíc předcházející o půl roku aktuální datum). | ||
- | <fs smaller> | + | Korpusy se v pokrytých časových obdobích nepřekrývají, pro hledání |
- | Např. 31. srpna obsahuje korpus ONLINE_NOW všechna data za období 1. 2. až 31. 8., včetně, tj. všechny dny aktuálního měsíce + 6 měsíců předcházejících. Korpus ONLINE_ARCHIVE obsahuje všechna starší data až do 31. ledna. 1. září dojde k odloučení dat za únor z korpusu ONLINE_NOW a jejich připojení ke korpusu ONLINE_ARCHIVE a korpus ONLINE_NOW je tvořen pouze daty za období 1.3 až 1. 9., včetně. | + | |
- | </ | + | |
+ | <WRAP round info 80%> | ||
+ | **Poznámka ke zpětné kompatibilitě: | ||
- | ===== Struktura | + | Uložené dotazy na 1. generaci |
- | + | ||
- | Oproti korpusům psané češtiny [[cnk: | + | |
- | * **news** -- internetová žurnalistika | + | |
- | * **facebook** -- posty, včetně reakcí | + | |
- | * **twitter** -- posty, včetně reakcí | + | |
- | * **instagram** -- k dispozici jsou data pouze v některých obdobích | + | |
- | * **discussions** -- webové diskuse (pod články na zpravodajských servech) | + | |
- | * **forums** -- samostatná webová fóra (nezávislá na zpravodajských portálech) | + | |
- | + | ||
- | Tyto zdroje jsou s ohledem na rozdílné výzkumné účely, k nimž mohou být použity, | + | |
- | + | ||
- | Všechny ostatní zdroje mají z důvodu obrovského množství dílčích textů, z nichž se skládají, strukturaci jinou. V rámci každého dne je v korpusu vždy jeden dokument ''< | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | ===== Klasifikace textů ===== | + | |
- | + | ||
- | ONLINE korpusy vycházejí z [[cnk: | + | |
- | + | ||
- | ==== source ==== | + | |
- | + | ||
- | Zdroj dat -- nejobecnější klasifikace odlišující zpravodajství od diskusních platforem a sociálních sítí (viz soupis výše). | + | |
- | + | ||
- | ==== resource ==== | + | |
- | + | ||
- | Hodnota atributu se liší u různých zdrojů dat. | + | |
- | + | ||
- | * v případě // | + | |
- | * v případě // | + | |
- | * v případě // | + | |
- | * v případe //fór// (v rámci struktury ''< | + | |
- | + | ||
- | + | ||
- | ==== media_type ==== | + | |
- | + | ||
- | Atribut media_type je relevantní pouze pro webovou žurnalistiku (source: news), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu [[http:// | + | |
- | + | ||
- | * Analyticko-investigativní | + | |
- | * Antisystémové weby | + | |
- | * Bulvární media | + | |
- | * Hlavní proud | + | |
- | * Market-driven media | + | |
- | * Názorové deníky | + | |
- | * Ostatní | + | |
- | * Politický bulvár | + | |
- | * Stranické weby | + | |
- | * Web instituce | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | ===== Anotace ===== | + | |
- | + | ||
- | Korpus je značkován standardními nástroji pro [[pojmy: | + | |
- | ====== Jak citovat SYN2015 ====== | + | |
- | + | ||
- | <WRAP round tip 70%> | + | |
- | Cvrček, V. – Procházka, P.: // | + | |
- | + | ||
- | Cvrček, V. – Procházka, P.: // | + | |
</ | </ | ||
- | |||