AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:online [2022/12/22 10:53] Václav Cvrčekcnk:online [2022/12/22 15:23] (aktuální) – [Generace korpusů ONLINE] Václav Cvrček
Řádek 2: Řádek 2:
 ====== Korpusy ONLINE ====== ====== Korpusy ONLINE ======
  
-Korpusy ONLINE dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. primárně internetovou žurnalistiku, v menším měřítku a bez nároku na kontinuálnost pokrytí pak také diskuse a sociální sítě, od roku 2017 do současnosti. Pro korpusy ONLINE je typická jejich [[pojmy:referencni|nereferenčnost]] (jejich obsah se neustále mění)jsou aktualizovány každý den v ranních hodinách takaby poskytovaly co nejčerstvější data (z předchozího dne). +Korpusy ONLINE dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. primárně internetovou žurnalistiku, v menším měřítku a bez nároku na kontinuálnost pokrytí pak také diskuse a sociální sítě, od roku 2017 do současnosti.  
 + 
 +Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah **neustále mění**a není možné se vracet k předchozím podobám korpusu. Vzhledem k tomuže se můžou měnit i vstupní data (zdroje), nelze zaručit, že se nebude měnit ani struktura či způsob anotace korpusu. Jako [[pojmy:referencni|referenční]] zdroj dat pro výzkum specifik internetové komunikace lze použít verzovaný [[cnk:net|korpus NET]].
  
 Korpusy jsou [[pojmy:lemma|lemmatizovány]] a [[pojmy:morfologicka_analyza|morfologicky značkovány]] pomocí aktuálních nástrojů, které se užívají pro analýzu korpusů řady [[cnk:syn|SYN]]. Korpusy jsou [[pojmy:lemma|lemmatizovány]] a [[pojmy:morfologicka_analyza|morfologicky značkovány]] pomocí aktuálních nástrojů, které se užívají pro analýzu korpusů řady [[cnk:syn|SYN]].
Řádek 8: Řádek 10:
 ===== Generace korpusů ONLINE ===== ===== Generace korpusů ONLINE =====
  
-Korpus ONLINE se vyskytuje ve dvou generacích.+Korpus ONLINE se vyskytuje ve dvou generacích
 + 
 +^ Generace ^ Název korpusu ^ Období ^ Složení ^ Rok zveřejnění ^ 
 +|  1     | [[cnk:online:gen1|ONLINE1]] | leden 2017 – březen 2021 | online žurnalistika, soc. sítě, diskuse, fóra |  2020 | 
 +|  2.      | [[cnk:online:gen2|ONLINE2_NOW, ONLINE2_ARCHIVE]] | duben 2021 – současnost | online žurnalistika |  2022 | 
 + 
  
-První generace korpusů (ONLINE1) byla vytvořena v ČNK na základě dat, která laskavě poskytovala společnost **[[https://www.dataweps.com|Dataweps]]**. Tato generace obsahuje data z období od ledna 2017 do března 2021, to je nejen v oblasti online zpravodajstvíale výběrově také sociální sítě, diskuse a fóra.+Korpusy se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů a další manuální úpravy k odstranění průniku nejsou nutnéKorpusy jsou identické ve své struktuřznačkovánínásledující popis tedy mezi nimi nerozlišuje.
  
-Druhá generace korpusů (ONLINE2) je vytvářena v ČNK na základě dat od společnosti [[https://monitora.cz|Monitora]] a pokrývá období od března 2021 do současnosti. Svým složením je korpus méně pestrý, zaměřuje se výhradně na online žurnalistiku, v tomto segmentu však poskytuje širší pokrytí.+<WRAP round info 80%> 
 +**Poznámka ke zpětné kompatibilitě:**
  
 +Uložené dotazy na 1. generaci korpusů ONLINE (tj. ONLINE_NOW a ONLINE_ARCHIVE) po zveřejnění 2. generace nemusí fungovat (mj. i v důsledku změny jména korpusů). Korpus ONLINE1 obsahuje nicméně všechny texty této předchozí generace a replikací dotazů na něm by mělo být možné dospět ke stejným výsledkům.
 +</WRAP>