AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Následující verze
Předchozí verze
cnk:online:gen2 [2022/12/22 11:02] – vytvořeno Václav Cvrčekcnk:online:gen2 [2022/12/22 16:09] (aktuální) – [duplicate] Václav Cvrček
Řádek 1: Řádek 1:
 ~~NOTOC~~ ~~NOTOC~~
-====== Korpusy ONLINE ======+====== ONLINE2 (2. generace) ======
  
-Korpusy **ONLINE_NOW** a **ONLINE_ARCHIVE** dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku, diskuse a sociální sítě, od roku 2017 do současnosti. Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost **[[https://www.dataweps.com|Dataweps]]**.+Korpusy **ONLINE2_NOW** a **ONLINE2_ARCHIVE** dohromady tvoří monitorovací korpus ([[cnk:online|ONLINE]]), který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku v období od dubna 2021 do současnosti (starší období je pokryto [[cnk:online:gen1|první generaci korpusu]]). Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost **[[https://monitora.cz|Monitora]]**.
  
 Obě části korpusu se liší svým rozsahem a periodicitou aktualizace: Obě části korpusu se liší svým rozsahem a periodicitou aktualizace:
-  * **ONLINE_NOW** -- obsahuje data z aktuálního měsíce a 6 měsíců předcházejících; aktualizuje se denně +  * **ONLINE2_NOW** -- obsahuje data z aktuálního měsíce a 6 měsíců předcházejících; aktualizuje se denně 
-  * **ONLINE_ARCHIVE** -- obsahuje data od února 2017 až po měsíc, jímž začíná ONLINE_NOW; aktualizuje se vždy na začátku měsíce+  * **ONLINE2_ARCHIVE** -- obsahuje data od dubna 2021 až po měsíc, jímž začíná ONLINE_NOW; aktualizuje se vždy na začátku měsíce
  
 <WRAP right 35%> <WRAP right 35%>
-^ <fs medium>Název</fs> ^^ <fs medium>ONLINE</fs> ^ +^ <fs medium>Název</fs> ^^ <fs medium>ONLINE2</fs> ^ 
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6,274 mld. (v době zveřejnění) |   +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  866 mil. (v době zveřejnění) |   
-^ ::: ^ Počet vět <s> |  506,mil. (v době zveřejnění) |+^ ::: ^ Počet vět <s> |   52,mil. (v době zveřejnění) |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  NE |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  NE |  
 ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |   ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |  
-^ ::: ^ Rok zveřejnění |  2020 |+^ ::: ^ Období |  od dubna 2021 | 
 +^ ::: ^ Rok zveřejnění |  2022 |
 </WRAP> </WRAP>
  
-Korpusy se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů a další manuální úpravy k odstranění průniku nejsou nutné. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje.+Korpusy [[cnk:online:gen1|ONLINE1]], ONLINE2_NOW a ONLINE2_ARCHIVE se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do všech korpusů a další manuální úpravy k odstranění průniku nejsou nutné. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje.
  
 ==== Aktualizace ==== ==== Aktualizace ====
  
-Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah **neustále mění**a není možné se vracet k edchozím podobám korpusuVzhledem k tomu, že se můžou nit i vstupní data (zdroje), nelze zaručit, že se nebude nit ani struktura či způsob anotace korpusu. Jako referenční zdroj dat pro výzkum specifik internetové komunikace lze použít verzovaný [[cnk:net|korpus NET]].+Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodináchkdy jsou zveřejněna data edchozího dneObjem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně síce (první den v měsícije nejstarší síc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE
  
-Aktualizace korpusu ONLINE_NOW probíhá každý den cca 9:00, kdy jsou zveřejněna data edchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 4 do 8 milionů tokenů. Při změně síce (první den v měsíci) je nejstarší měsíc korpusu ONLINE_NOW ipojen ke korpusu ONLINE_ARCHIVE+Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu ibyde síc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum).
  
-Aktualizace korpusu ONLINE_ARCHIVE probíhá vždy první den měsícikdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE_NOW (měsíc edcházející o půl roku aktuální datum).+Např. 25. srpna obsahuje korpus ONLINE2_NOW všechna data za období od 1. 2. do 24. 8. (včetně)tj. všechny dny aktuálního měsíce s výjimkou aktuálního dne + 6 měsíců předcházejících. Korpus ONLINE2_ARCHIVE obsahuje všechna starší data až do 31. lednatj. do okamžiku, v kterém začíná ONLINE2_NOW. Změna nastane u obou korpusů 2. září, kdy dojde k odloučení dat za únor z korpusu ONLINE2_NOW a jejich ipojení ke korpusu ONLINE2_ARCHIVE a korpus ONLINE2_NOW je nově tvořen pouze daty za období od 1. 3. do 1. 9. (včetně).
  
-<fs smaller> 
-Např. 25. srpna obsahuje korpus ONLINE_NOW všechna data za období od 1. 2. do 24. 8. (včetně), tj. všechny dny aktuálního měsíce s výjimkou aktuálního dne + 6 měsíců předcházejících. Korpus ONLINE_ARCHIVE obsahuje všechna starší data až do 31. ledna, tj. do okamžiku, v kterém začíná ONLINE_NOW. Změna nastane u obou korpusů 2. září, kdy dojde k odloučení dat za únor z korpusu ONLINE_NOW a jejich připojení ke korpusu ONLINE_ARCHIVE a korpus ONLINE_NOW je nově tvořen pouze daty za období od 1. 3. do 1. 9. (včetně). 
-</fs>  
  
  
 ===== Struktura korpusů ===== ===== Struktura korpusů =====
  
-Oproti korpusům psané češtiny [[cnk:syn|řady SYN]] má ONLINE několik specifik. Data přicházejí do korpusu z několika zdrojů (atribut ''source''): +Oproti korpusům psané češtiny [[cnk:syn|řady SYN]] má ONLINE2 několik specifik. Z důvodu zpětné komptability ponecháváme v datech atribut ''source'', který naznačujeo jaký typ internetových dat se jedná. V druhé generaci korpusu ONLINE se objevuje pouze online žurnalistikahodnota tohoto atributu je tedy vždy **news**
-  * **news** -- internetová žurnalistika +
-  * **facebook** -- postyvčetně reakcí (pouze do prosince 2020v současnosti se tento segment nestahuje) +
-  * **twitter** -- posty, včetně reakcí +
-  * **instagram** -- k dispozici jsou data pouze v některých obdobích +
-  * **discussions** -- webové diskuse (pod články na zpravodajských servech) +
-  * **forums** -- samostatná webová fóra (nezávislá na zpravodajských portálech) +
- +
-Tyto zdroje jsou s ohledem na rozdílné výzkumné účely, k nimž mohou být použity, a specifika svého obsahu zpracovávána odlišněTexty z **internetového zpravodajství** (//news//) jsou v rámci jednoho dne shlukovány do jednoho dokumentu (struktura ''<doc>'') na základě příslušnosti k jednomu zdroji (atribut ''resource''). Uvnitř této struktury jsou pak jednotlivé články vyděleny jako samostatné struktury ''<text>''. Např. všechny články, které vyšly v jeden den na portálu [[https://zatecky.denik.cz/|zatecky.denik.cz]], jsou sdruženy do jedné struktury ''<doc>'', jednotlivé články z daného portálu v daném dni mají každý svoji samostatnou strukturu ''<text>''+
- +
-Všechny ostatní zdroje mají z důvodu obrovského množství dílčích textůz nichž se skládají, strukturaci jinou. V rámci každého dne je v korpusu vždy jeden dokument ''<doc>'' pro každý z těchto zdrojů, tj. jeden ''<doc>'' pro diskuse, jeden pro fóra a jeden pro každou ze sociální sítí. Jednotlivé příspěvky v rámci těchto dokumentů mají samostatnou strukturu ''<text>''. +
  
 +Texty jsou v rámci jednoho dne shlukovány do jednoho dokumentu (struktura ''<doc>'') na základě příslušnosti k jednomu zdroji (atribut ''resource''). Uvnitř této struktury jsou pak jednotlivé články vyděleny jako samostatné struktury ''<text>''. Např. všechny články, které vyšly v jeden den na portálu [[https://burzovnisvet.cz|burzovnisvet.cz]], jsou sdruženy do jedné struktury ''<doc>'', jednotlivé články z daného portálu v daném dni mají každý svoji samostatnou strukturu ''<text>''.
  
  
Řádek 53: Řádek 41:
 ONLINE korpusy vycházejí z [[cnk:klasifikace_textu_syn2015|klasifikace textů navržené pro SYN2015]], obohacují ji o některé specifické atributy. Společné s řadou SYN mají korpusy ONLINE tyto atributy: [[seznamy:txtype_group|txtype_group]], [[seznamy:txtype|txtype]], [[seznamy:genre_group|genre_group]], [[seznamy:genre|genre]], [[seznamy:med|medium]], pubyear (tj. rok vydání textu). Specifické jsou pak atributy date (tj. datum, kdy byl daný text zveřejněn), source, resource, resource_url, media_type a subject (titulek textu). ONLINE korpusy vycházejí z [[cnk:klasifikace_textu_syn2015|klasifikace textů navržené pro SYN2015]], obohacují ji o některé specifické atributy. Společné s řadou SYN mají korpusy ONLINE tyto atributy: [[seznamy:txtype_group|txtype_group]], [[seznamy:txtype|txtype]], [[seznamy:genre_group|genre_group]], [[seznamy:genre|genre]], [[seznamy:med|medium]], pubyear (tj. rok vydání textu). Specifické jsou pak atributy date (tj. datum, kdy byl daný text zveřejněn), source, resource, resource_url, media_type a subject (titulek textu).
  
-==== source ==== 
- 
-Zdroj dat -- nejobecnější klasifikace odlišující zpravodajství od diskusních platforem a sociálních sítí (viz soupis výše). 
  
 ==== resource ==== ==== resource ====
  
-Atribut zachycuje přesnější určení zdroje textu (typicky portál), konkrétní URL vedoucí přímo ke zdrojovému textu je pak uvedena v atributu ''resource_url'', který je k dispozici u jednotlivých struktur úroveň ''text''. Jeho hodnota atributu se liší u různých zdrojů dat. +Atribut zachycuje přesnější určení zdroje textu (typicky portál), konkrétní URL vedoucí přímo ke zdrojovému textu je pak uvedena v atributu ''text_url''
- +
-  * v případě //žurnalistiky// (v rámci struktury ''<doc>''): určení zdrojového portálu či jeho části, např. //blesk-cz//, //seznamzpravy// atp. +
-  * v případě //sociálních sítí// (v rámci struktury ''<text>''): určení autora příspěvku, resp. jeho uživatelského jména +
-  * v případě //diskusí// (v rámci struktury ''<text>''): určení výchozího zpravodajského portálu, v jehož rámci se diskuse vede, např.  //novinky//, //zpravy.aktualne-cz// +
-  * v případe //fór// (v rámci struktury ''<text>''): určení portálu, např. //diskuze.modnipeklo-cz//, //emimino//+
  
  
 ==== media_type ==== ==== media_type ====
  
-Atribut ''media_type'' je relevantní pouze pro webovou žurnalistiku (source: ''news''), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu [[http://www.mapamedii.cz|Mapa medií]]. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum (viz [[http://www.mapamedii.cz/mapa/typologie/index.php|podrobný popis metody]]). Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami:+Atribut ''media_type'' je relevantní pouze pro webovou žurnalistiku (source: ''news''), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu //Mapa medií//. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum. Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami:
  
   * Analyticko-investigativní   * Analyticko-investigativní
Řádek 83: Řádek 63:
  
  
 +==== duplicate ====
  
 +Atribut ''text.duplicate'' (dostupný pouze v korpusech 2. generace) udává, zda je text duplikátem jiného textu v korpusu. Taková situace se u dat z online médií může stát poměrně často v důsledku přejímání zpráv mezi tiskovými agenturami a jednotlivými tituly/portály. Pokud se chceme vyhnout zkreslení, které je dáno takovýmito textovými duplicitami, můžeme použít dotaz s podmínkou [[pojmy:within|within]] (např. ''%%[word="kolo"] within <text duplicate!="no" />%%''), která zaručí, že se ve výsledku objeví duplicitní texty pouze v jednom excempláři. 
  
 ===== Anotace ===== ===== Anotace =====
Řádek 91: Řádek 73:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Cvrček, V. – ProcházkaP.: //ONLINE_NOW: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020 [cit. RRRR-MM-DD((Konkrétní časový údaj v pořadí rok-měsíc-den, např. 2020-10-02))]. Dostupný z WWW: http://www.korpus.cz+Cvrček, V. – JeziorskýT. – Henyš, J.: //ONLINE2_NOW: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2022 [cit. RRRR-MM-DD((Konkrétní časový údaj v pořadí rok-měsíc-den, např. 2022-12-24))]. Dostupný z WWW: http://www.korpus.cz
  
-Cvrček, V. – ProcházkaP.: //ONLINE_ARCHIVE: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020 [cit. RRRR-MM-DD]. Dostupný z WWW: http://www.korpus.cz+Cvrček, V. – JeziorskýT. – Henyš, J.: //ONLINE2_ARCHIVE: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2022 [cit. RRRR-MM-DD]. Dostupný z WWW: http://www.korpus.cz
 </WRAP> </WRAP>