AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpusy ONLINE

Korpusy ONLINE dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. primárně internetovou žurnalistiku, v menším měřítku a bez nároku na kontinuálnost pokrytí pak také diskuse a sociální sítě, od roku 2017 do současnosti.

Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah neustále mění, a není možné se vracet k předchozím podobám korpusu. Vzhledem k tomu, že se můžou měnit i vstupní data (zdroje), nelze zaručit, že se nebude měnit ani struktura či způsob anotace korpusu. Jako referenční zdroj dat pro výzkum specifik internetové komunikace lze použít verzovaný korpus NET.

Korpusy jsou lemmatizovány a morfologicky značkovány pomocí aktuálních nástrojů, které se užívají pro analýzu korpusů řady SYN.

Generace korpusů ONLINE

Korpus ONLINE se vyskytuje ve dvou generacích:

Generace Název korpusu Období Složení
1. ONLINE1 leden 2017 – březen 2021 online žurnalistika, soc. sítě, diskuse, fóra
2. ONLINE2_NOW, ONLINE2_ARCHIVE od dubna 2021 online žurnalistika

Korpusy se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů a další manuální úpravy k odstranění průniku nejsou nutné. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje.