AplikaceAplikace
Nastavení

Korpusy ONLINE

Korpusy ONLINE dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. primárně internetovou žurnalistiku, v menším měřítku a bez nároku na kontinuálnost pokrytí pak také diskuse a sociální sítě, od roku 2017 do současnosti.

Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah neustále mění, a není možné se vracet k předchozím podobám korpusu. Vzhledem k tomu, že se můžou měnit i vstupní data (zdroje), nelze zaručit, že se nebude měnit ani struktura či způsob anotace korpusu. Jako referenční zdroj dat pro výzkum specifik internetové komunikace lze použít verzovaný korpus NET.

Korpusy jsou lemmatizovány a morfologicky značkovány pomocí aktuálních nástrojů, které se užívají pro analýzu korpusů řady SYN.

Generace korpusů ONLINE

Korpus ONLINE se vyskytuje ve dvou generacích:

Generace Název korpusu Období Složení Rok zveřejnění
1. ONLINE1 leden 2017 – březen 2021 online žurnalistika, soc. sítě, diskuse, fóra 2020
2. ONLINE2_NOW, ONLINE2_ARCHIVE duben 2021 – současnost online žurnalistika 2022

Korpusy se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů a další manuální úpravy k odstranění průniku nejsou nutné. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje.

Poznámka ke zpětné kompatibilitě:

Uložené dotazy na 1. generaci korpusů ONLINE (tj. ONLINE_NOW a ONLINE_ARCHIVE) po zveřejnění 2. generace nemusí fungovat (mj. i v důsledku změny jména korpusů). Korpus ONLINE1 obsahuje nicméně všechny texty této předchozí generace a replikací dotazů na něm by mělo být možné dospět ke stejným výsledkům.