Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:online:gen2 [2022/12/22 11:11] – vaclavcvrcek | cnk:online:gen2 [2022/12/22 16:09] (aktuální) – [duplicate] vaclavcvrcek |
---|
~~NOTOC~~ | ~~NOTOC~~ |
====== Korpusy ONLINE2 ====== | ====== ONLINE2 (2. generace) ====== |
| |
Korpusy **ONLINE2_NOW** a **ONLINE2_ARCHIVE** dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku od dubna 2021 do současnosti. Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost **[[https://monitora.cz|Monitora]]**. | Korpusy **ONLINE2_NOW** a **ONLINE2_ARCHIVE** dohromady tvoří monitorovací korpus ([[cnk:online|ONLINE]]), který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku v období od dubna 2021 do současnosti (starší období je pokryto [[cnk:online:gen1|první generaci korpusu]]). Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost **[[https://monitora.cz|Monitora]]**. |
| |
Obě části korpusu se liší svým rozsahem a periodicitou aktualizace: | Obě části korpusu se liší svým rozsahem a periodicitou aktualizace: |
| |
<WRAP right 35%> | <WRAP right 35%> |
^ <fs medium>Název</fs> ^^ <fs medium>ONLINE</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>ONLINE2</fs> ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6,274 mld. (v době zveřejnění) | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 866 mil. (v době zveřejnění) | |
^ ::: ^ Počet vět <s> | 506,6 mil. (v době zveřejnění) | | ^ ::: ^ Počet vět <s> | 52,2 mil. (v době zveřejnění) | |
^ Další informace ^ [[pojmy:referencni|Referenční]] | NE | | ^ Další informace ^ [[pojmy:referencni|Referenční]] | NE | |
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE | | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE | |
^ ::: ^ Rok zveřejnění | 2020 | | ^ ::: ^ Období | od dubna 2021 | |
| ^ ::: ^ Rok zveřejnění | 2022 | |
</WRAP> | </WRAP> |
| |
Korpusy se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů a další manuální úpravy k odstranění průniku nejsou nutné. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje. | Korpusy [[cnk:online:gen1|ONLINE1]], ONLINE2_NOW a ONLINE2_ARCHIVE se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do všech korpusů a další manuální úpravy k odstranění průniku nejsou nutné. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje. |
| |
==== Aktualizace ==== | ==== Aktualizace ==== |
| |
Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah **neustále mění**, a není možné se vracet k předchozím podobám korpusu. Vzhledem k tomu, že se můžou měnit i vstupní data (zdroje), nelze zaručit, že se nebude měnit ani struktura či způsob anotace korpusu. Jako referenční zdroj dat pro výzkum specifik internetové komunikace lze použít verzovaný [[cnk:net|korpus NET]]. | Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodinách, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. |
| |
Aktualizace korpusu ONLINE_NOW probíhá každý den cca v 9:00, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 4 do 8 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE_NOW připojen ke korpusu ONLINE_ARCHIVE. | Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum). |
| |
Aktualizace korpusu ONLINE_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE_NOW (měsíc předcházející o půl roku aktuální datum). | Např. 25. srpna obsahuje korpus ONLINE2_NOW všechna data za období od 1. 2. do 24. 8. (včetně), tj. všechny dny aktuálního měsíce s výjimkou aktuálního dne + 6 měsíců předcházejících. Korpus ONLINE2_ARCHIVE obsahuje všechna starší data až do 31. ledna, tj. do okamžiku, v kterém začíná ONLINE2_NOW. Změna nastane u obou korpusů 2. září, kdy dojde k odloučení dat za únor z korpusu ONLINE2_NOW a jejich připojení ke korpusu ONLINE2_ARCHIVE a korpus ONLINE2_NOW je nově tvořen pouze daty za období od 1. 3. do 1. 9. (včetně). |
| |
<fs smaller> | |
Např. 25. srpna obsahuje korpus ONLINE_NOW všechna data za období od 1. 2. do 24. 8. (včetně), tj. všechny dny aktuálního měsíce s výjimkou aktuálního dne + 6 měsíců předcházejících. Korpus ONLINE_ARCHIVE obsahuje všechna starší data až do 31. ledna, tj. do okamžiku, v kterém začíná ONLINE_NOW. Změna nastane u obou korpusů 2. září, kdy dojde k odloučení dat za únor z korpusu ONLINE_NOW a jejich připojení ke korpusu ONLINE_ARCHIVE a korpus ONLINE_NOW je nově tvořen pouze daty za období od 1. 3. do 1. 9. (včetně). | |
</fs> | |
| |
| |
===== Struktura korpusů ===== | ===== Struktura korpusů ===== |
| |
Oproti korpusům psané češtiny [[cnk:syn|řady SYN]] má ONLINE několik specifik. Data přicházejí do korpusu z několika zdrojů (atribut ''source''): | Oproti korpusům psané češtiny [[cnk:syn|řady SYN]] má ONLINE2 několik specifik. Z důvodu zpětné komptability ponecháváme v datech atribut ''source'', který naznačuje, o jaký typ internetových dat se jedná. V druhé generaci korpusu ONLINE se objevuje pouze online žurnalistika, hodnota tohoto atributu je tedy vždy **news**. |
* **news** -- internetová žurnalistika | |
* **facebook** -- posty, včetně reakcí (pouze do prosince 2020, v současnosti se tento segment nestahuje) | |
* **twitter** -- posty, včetně reakcí | |
* **instagram** -- k dispozici jsou data pouze v některých obdobích | |
* **discussions** -- webové diskuse (pod články na zpravodajských servech) | |
* **forums** -- samostatná webová fóra (nezávislá na zpravodajských portálech) | |
| |
Tyto zdroje jsou s ohledem na rozdílné výzkumné účely, k nimž mohou být použity, a specifika svého obsahu zpracovávána odlišně. Texty z **internetového zpravodajství** (//news//) jsou v rámci jednoho dne shlukovány do jednoho dokumentu (struktura ''<doc>'') na základě příslušnosti k jednomu zdroji (atribut ''resource''). Uvnitř této struktury jsou pak jednotlivé články vyděleny jako samostatné struktury ''<text>''. Např. všechny články, které vyšly v jeden den na portálu [[https://zatecky.denik.cz/|zatecky.denik.cz]], jsou sdruženy do jedné struktury ''<doc>'', jednotlivé články z daného portálu v daném dni mají každý svoji samostatnou strukturu ''<text>''. | |
| |
Všechny ostatní zdroje mají z důvodu obrovského množství dílčích textů, z nichž se skládají, strukturaci jinou. V rámci každého dne je v korpusu vždy jeden dokument ''<doc>'' pro každý z těchto zdrojů, tj. jeden ''<doc>'' pro diskuse, jeden pro fóra a jeden pro každou ze sociální sítí. Jednotlivé příspěvky v rámci těchto dokumentů mají samostatnou strukturu ''<text>''. | |
| |
| Texty jsou v rámci jednoho dne shlukovány do jednoho dokumentu (struktura ''<doc>'') na základě příslušnosti k jednomu zdroji (atribut ''resource''). Uvnitř této struktury jsou pak jednotlivé články vyděleny jako samostatné struktury ''<text>''. Např. všechny články, které vyšly v jeden den na portálu [[https://burzovnisvet.cz|burzovnisvet.cz]], jsou sdruženy do jedné struktury ''<doc>'', jednotlivé články z daného portálu v daném dni mají každý svoji samostatnou strukturu ''<text>''. |
| |
| |
ONLINE korpusy vycházejí z [[cnk:klasifikace_textu_syn2015|klasifikace textů navržené pro SYN2015]], obohacují ji o některé specifické atributy. Společné s řadou SYN mají korpusy ONLINE tyto atributy: [[seznamy:txtype_group|txtype_group]], [[seznamy:txtype|txtype]], [[seznamy:genre_group|genre_group]], [[seznamy:genre|genre]], [[seznamy:med|medium]], pubyear (tj. rok vydání textu). Specifické jsou pak atributy date (tj. datum, kdy byl daný text zveřejněn), source, resource, resource_url, media_type a subject (titulek textu). | ONLINE korpusy vycházejí z [[cnk:klasifikace_textu_syn2015|klasifikace textů navržené pro SYN2015]], obohacují ji o některé specifické atributy. Společné s řadou SYN mají korpusy ONLINE tyto atributy: [[seznamy:txtype_group|txtype_group]], [[seznamy:txtype|txtype]], [[seznamy:genre_group|genre_group]], [[seznamy:genre|genre]], [[seznamy:med|medium]], pubyear (tj. rok vydání textu). Specifické jsou pak atributy date (tj. datum, kdy byl daný text zveřejněn), source, resource, resource_url, media_type a subject (titulek textu). |
| |
==== source ==== | |
| |
Zdroj dat -- nejobecnější klasifikace odlišující zpravodajství od diskusních platforem a sociálních sítí (viz soupis výše). | |
| |
==== resource ==== | ==== resource ==== |
| |
Atribut zachycuje přesnější určení zdroje textu (typicky portál), konkrétní URL vedoucí přímo ke zdrojovému textu je pak uvedena v atributu ''resource_url'', který je k dispozici u jednotlivých struktur úroveň ''text''. Jeho hodnota atributu se liší u různých zdrojů dat. | Atribut zachycuje přesnější určení zdroje textu (typicky portál), konkrétní URL vedoucí přímo ke zdrojovému textu je pak uvedena v atributu ''text_url''. |
| |
* v případě //žurnalistiky// (v rámci struktury ''<doc>''): určení zdrojového portálu či jeho části, např. //blesk-cz//, //seznamzpravy// atp. | |
* v případě //sociálních sítí// (v rámci struktury ''<text>''): určení autora příspěvku, resp. jeho uživatelského jména | |
* v případě //diskusí// (v rámci struktury ''<text>''): určení výchozího zpravodajského portálu, v jehož rámci se diskuse vede, např. //novinky//, //zpravy.aktualne-cz// | |
* v případe //fór// (v rámci struktury ''<text>''): určení portálu, např. //diskuze.modnipeklo-cz//, //emimino// | |
| |
| |
==== media_type ==== | ==== media_type ==== |
| |
Atribut ''media_type'' je relevantní pouze pro webovou žurnalistiku (source: ''news''), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu [[http://www.mapamedii.cz|Mapa medií]]. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum (viz [[http://www.mapamedii.cz/mapa/typologie/index.php|podrobný popis metody]]). Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami: | Atribut ''media_type'' je relevantní pouze pro webovou žurnalistiku (source: ''news''), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu //Mapa medií//. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum. Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami: |
| |
* Analyticko-investigativní | * Analyticko-investigativní |
| |
| |
| ==== duplicate ==== |
| |
| Atribut ''text.duplicate'' (dostupný pouze v korpusech 2. generace) udává, zda je text duplikátem jiného textu v korpusu. Taková situace se u dat z online médií může stát poměrně často v důsledku přejímání zpráv mezi tiskovými agenturami a jednotlivými tituly/portály. Pokud se chceme vyhnout zkreslení, které je dáno takovýmito textovými duplicitami, můžeme použít dotaz s podmínkou [[pojmy:within|within]] (např. ''%%[word="kolo"] within <text duplicate!="no" />%%''), která zaručí, že se ve výsledku objeví duplicitní texty pouze v jednom excempláři. |
| |
===== Anotace ===== | ===== Anotace ===== |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Cvrček, V. – Procházka, P.: //ONLINE_NOW: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020 [cit. RRRR-MM-DD((Konkrétní časový údaj v pořadí rok-měsíc-den, např. 2020-10-02))]. Dostupný z WWW: http://www.korpus.cz | Cvrček, V. – Jeziorský, T. – Henyš, J.: //ONLINE2_NOW: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2022 [cit. RRRR-MM-DD((Konkrétní časový údaj v pořadí rok-měsíc-den, např. 2022-12-24))]. Dostupný z WWW: http://www.korpus.cz |
| |
Cvrček, V. – Procházka, P.: //ONLINE_ARCHIVE: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020 [cit. RRRR-MM-DD]. Dostupný z WWW: http://www.korpus.cz | Cvrček, V. – Jeziorský, T. – Henyš, J.: //ONLINE2_ARCHIVE: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2022 [cit. RRRR-MM-DD]. Dostupný z WWW: http://www.korpus.cz |
</WRAP> | </WRAP> |
| |