Toto je starší verze dokumentu!
Korpusy ONLINE
Korpusy ONLINE dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. primárně internetovou žurnalistiku, v menším měřítku a bez nároku na kontinuálnost pokrytí pak také diskuse a sociální sítě, od roku 2017 do současnosti.
Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah neustále mění, a není možné se vracet k předchozím podobám korpusu. Vzhledem k tomu, že se můžou měnit i vstupní data (zdroje), nelze zaručit, že se nebude měnit ani struktura či způsob anotace korpusu. Jako referenční zdroj dat pro výzkum specifik internetové komunikace lze použít verzovaný korpus NET.
Korpusy jsou lemmatizovány a morfologicky značkovány pomocí aktuálních nástrojů, které se užívají pro analýzu korpusů řady SYN.
Generace korpusů ONLINE
Korpus ONLINE se vyskytuje ve dvou generacích:
- První generace korpusů (ONLINE1) byla vytvořena v ČNK na základě dat, která laskavě poskytovala společnost Dataweps. Tato generace obsahuje data z období od ledna 2017 do března 2021, a to je nejen v oblasti online zpravodajství, ale výběrově také sociální sítě, diskuse a fóra.
- Druhá generace korpusů (ONLINE2) je vytvářena v ČNK na základě dat od společnosti Monitora a pokrývá období od března 2021 do současnosti. Svým složením je korpus méně pestrý, zaměřuje se výhradně na online žurnalistiku, v tomto segmentu však poskytuje širší pokrytí.
Korpusy se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů a další manuální úpravy k odstranění průniku nejsou nutné. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje.