AplikaceAplikace
Nastavení

ONLINE2 (2. generace)

Korpusy ONLINE2_NOW a ONLINE2_ARCHIVE dohromady tvoří monitorovací korpus (ONLINE), který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku v období od dubna 2021 do současnosti (starší období je pokryto první generaci korpusu). Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost Monitora.

Obě části korpusu se liší svým rozsahem a periodicitou aktualizace:

  • ONLINE2_NOW – obsahuje data z aktuálního měsíce a 6 měsíců předcházejících; aktualizuje se denně
  • ONLINE2_ARCHIVE – obsahuje data od dubna 2021 až po měsíc, jímž začíná ONLINE_NOW; aktualizuje se vždy na začátku měsíce
Název ONLINE2
Pozice Počet pozic (tokenů) 866 mil. (v době zveřejnění)
Počet vět <s> 52,2 mil. (v době zveřejnění)
Další informace Referenční NE
Reprezentativní NE
Období od dubna 2021
Rok zveřejnění 2022

Korpusy ONLINE1, ONLINE2_NOW a ONLINE2_ARCHIVE se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do všech korpusů a další manuální úpravy k odstranění průniku nejsou nutné. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje.

Aktualizace

Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodinách, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE.

Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum).

Např. 25. srpna obsahuje korpus ONLINE2_NOW všechna data za období od 1. 2. do 24. 8. (včetně), tj. všechny dny aktuálního měsíce s výjimkou aktuálního dne + 6 měsíců předcházejících. Korpus ONLINE2_ARCHIVE obsahuje všechna starší data až do 31. ledna, tj. do okamžiku, v kterém začíná ONLINE2_NOW. Změna nastane u obou korpusů 2. září, kdy dojde k odloučení dat za únor z korpusu ONLINE2_NOW a jejich připojení ke korpusu ONLINE2_ARCHIVE a korpus ONLINE2_NOW je nově tvořen pouze daty za období od 1. 3. do 1. 9. (včetně).

Struktura korpusů

Oproti korpusům psané češtiny řady SYN má ONLINE2 několik specifik. Z důvodu zpětné komptability ponecháváme v datech atribut source, který naznačuje, o jaký typ internetových dat se jedná. V druhé generaci korpusu ONLINE se objevuje pouze online žurnalistika, hodnota tohoto atributu je tedy vždy news.

Texty jsou v rámci jednoho dne shlukovány do jednoho dokumentu (struktura <doc>) na základě příslušnosti k jednomu zdroji (atribut resource). Uvnitř této struktury jsou pak jednotlivé články vyděleny jako samostatné struktury <text>. Např. všechny články, které vyšly v jeden den na portálu burzovnisvet.cz, jsou sdruženy do jedné struktury <doc>, jednotlivé články z daného portálu v daném dni mají každý svoji samostatnou strukturu <text>.

Klasifikace textů

ONLINE korpusy vycházejí z klasifikace textů navržené pro SYN2015, obohacují ji o některé specifické atributy. Společné s řadou SYN mají korpusy ONLINE tyto atributy: txtype_group, txtype, genre_group, genre, medium, pubyear (tj. rok vydání textu). Specifické jsou pak atributy date (tj. datum, kdy byl daný text zveřejněn), source, resource, resource_url, media_type a subject (titulek textu).

resource

Atribut zachycuje přesnější určení zdroje textu (typicky portál), konkrétní URL vedoucí přímo ke zdrojovému textu je pak uvedena v atributu text_url.

media_type

Atribut media_type je relevantní pouze pro webovou žurnalistiku (source: news), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu Mapa medií. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum. Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami:

  • Analyticko-investigativní
  • Antisystémové weby
  • Bulvární media
  • Hlavní proud
  • Market-driven media
  • Názorové deníky
  • Ostatní
  • Politický bulvár
  • Stranické weby
  • Web instituce

duplicate

Atribut text.duplicate (dostupný pouze v korpusech 2. generace) udává, zda je text duplikátem jiného textu v korpusu. Taková situace se u dat z online médií může stát poměrně často v důsledku přejímání zpráv mezi tiskovými agenturami a jednotlivými tituly/portály. Pokud se chceme vyhnout zkreslení, které je dáno takovýmito textovými duplicitami, můžeme použít dotaz s podmínkou within (např. [word="kolo"] within <text duplicate!="no" />), která zaručí, že se ve výsledku objeví duplicitní texty pouze v jednom excempláři.

Anotace

Korpus je značkován standardními nástroji pro morfologickou analýzu a lemmatizaci korpusů řady SYN. Výsledky analýzy by měly být srovnatelné s korpusem SYN2015 (viz popis morfologických značek).

Jak citovat korpusy ONLINE

Cvrček, V. – Jeziorský, T. – Henyš, J.: ONLINE2_NOW: monitorovací korpus internetové češtiny. Ústav Českého národního korpusu FF UK, Praha 2022 [cit. RRRR-MM-DD1)]. Dostupný z WWW: http://www.korpus.cz

Cvrček, V. – Jeziorský, T. – Henyš, J.: ONLINE2_ARCHIVE: monitorovací korpus internetové češtiny. Ústav Českého národního korpusu FF UK, Praha 2022 [cit. RRRR-MM-DD]. Dostupný z WWW: http://www.korpus.cz

1)
Konkrétní časový údaj v pořadí rok-měsíc-den, např. 2022-12-24