~~NOTOC~~ ====== ONLINE2 (2. generace) ====== Korpusy **ONLINE2_NOW** a **ONLINE2_ARCHIVE** dohromady tvoří monitorovací korpus ([[cnk:online|ONLINE]]), který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku v období od dubna 2021 do současnosti (starší období je pokryto [[cnk:online:gen1|první generaci korpusu]]). Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost **[[https://monitora.cz|Monitora]]**. Obě části korpusu se liší svým rozsahem a periodicitou aktualizace: * **ONLINE2_NOW** -- obsahuje data z aktuálního měsíce a 6 měsíců předcházejících; aktualizuje se denně * **ONLINE2_ARCHIVE** -- obsahuje data od dubna 2021 až po měsíc, jímž začíná ONLINE_NOW; aktualizuje se vždy na začátku měsíce ^ Název ^^ ONLINE2 ^ ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 866 mil. (v době zveřejnění) | ^ ::: ^ Počet vět | 52,2 mil. (v době zveřejnění) | ^ Další informace ^ [[pojmy:referencni|Referenční]] | NE | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE | ^ ::: ^ Období | od dubna 2021 | ^ ::: ^ Rok zveřejnění | 2022 | Korpusy [[cnk:online:gen1|ONLINE1]], ONLINE2_NOW a ONLINE2_ARCHIVE se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do všech korpusů a další manuální úpravy k odstranění průniku nejsou nutné. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje. ==== Aktualizace ==== Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodinách, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum). Např. 25. srpna obsahuje korpus ONLINE2_NOW všechna data za období od 1. 2. do 24. 8. (včetně), tj. všechny dny aktuálního měsíce s výjimkou aktuálního dne + 6 měsíců předcházejících. Korpus ONLINE2_ARCHIVE obsahuje všechna starší data až do 31. ledna, tj. do okamžiku, v kterém začíná ONLINE2_NOW. Změna nastane u obou korpusů 2. září, kdy dojde k odloučení dat za únor z korpusu ONLINE2_NOW a jejich připojení ke korpusu ONLINE2_ARCHIVE a korpus ONLINE2_NOW je nově tvořen pouze daty za období od 1. 3. do 1. 9. (včetně). ===== Struktura korpusů ===== Oproti korpusům psané češtiny [[cnk:syn|řady SYN]] má ONLINE2 několik specifik. Z důvodu zpětné komptability ponecháváme v datech atribut ''source'', který naznačuje, o jaký typ internetových dat se jedná. V druhé generaci korpusu ONLINE se objevuje pouze online žurnalistika, hodnota tohoto atributu je tedy vždy **news**. Texty jsou v rámci jednoho dne shlukovány do jednoho dokumentu (struktura '''') na základě příslušnosti k jednomu zdroji (atribut ''resource''). Uvnitř této struktury jsou pak jednotlivé články vyděleny jako samostatné struktury ''''. Např. všechny články, které vyšly v jeden den na portálu [[https://burzovnisvet.cz|burzovnisvet.cz]], jsou sdruženy do jedné struktury '''', jednotlivé články z daného portálu v daném dni mají každý svoji samostatnou strukturu ''''. ===== Klasifikace textů ===== ONLINE korpusy vycházejí z [[cnk:klasifikace_textu_syn2015|klasifikace textů navržené pro SYN2015]], obohacují ji o některé specifické atributy. Společné s řadou SYN mají korpusy ONLINE tyto atributy: [[seznamy:txtype_group|txtype_group]], [[seznamy:txtype|txtype]], [[seznamy:genre_group|genre_group]], [[seznamy:genre|genre]], [[seznamy:med|medium]], pubyear (tj. rok vydání textu). Specifické jsou pak atributy date (tj. datum, kdy byl daný text zveřejněn), source, resource, resource_url, media_type a subject (titulek textu). ==== resource ==== Atribut zachycuje přesnější určení zdroje textu (typicky portál), konkrétní URL vedoucí přímo ke zdrojovému textu je pak uvedena v atributu ''text_url''. ==== media_type ==== Atribut ''media_type'' je relevantní pouze pro webovou žurnalistiku (source: ''news''), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu //Mapa medií//. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum. Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami: * Analyticko-investigativní * Antisystémové weby * Bulvární media * Hlavní proud * Market-driven media * Názorové deníky * Ostatní * Politický bulvár * Stranické weby * Web instituce ==== duplicate ==== Atribut ''text.duplicate'' (dostupný pouze v korpusech 2. generace) udává, zda je text duplikátem jiného textu v korpusu. Taková situace se u dat z online médií může stát poměrně často v důsledku přejímání zpráv mezi tiskovými agenturami a jednotlivými tituly/portály. Pokud se chceme vyhnout zkreslení, které je dáno takovýmito textovými duplicitami, můžeme použít dotaz s podmínkou [[pojmy:within|within]] (např. ''%%[word="kolo"] within %%''), která zaručí, že se ve výsledku objeví duplicitní texty pouze v jednom excempláři. ===== Anotace ===== Korpus je značkován standardními nástroji pro [[pojmy:morfologicka_analyza|morfologickou analýzu]] a [[pojmy:lemma|lemmatizaci]] korpusů řady SYN. Výsledky analýzy by měly být srovnatelné s korpusem [[cnk:syn2015|SYN2015]] (viz [[seznamy:tagy|popis morfologických značek]]). ====== Jak citovat korpusy ONLINE ====== Cvrček, V. – Jeziorský, T. – Henyš, J.: //ONLINE2_NOW: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2022 [cit. RRRR-MM-DD((Konkrétní časový údaj v pořadí rok-měsíc-den, např. 2022-12-24))]. Dostupný z WWW: http://www.korpus.cz Cvrček, V. – Jeziorský, T. – Henyš, J.: //ONLINE2_ARCHIVE: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2022 [cit. RRRR-MM-DD]. Dostupný z WWW: http://www.korpus.cz