~~NOTOC~~
====== ONLINE1 (1. generace) ======
První generace monitorovacího korpusu, **ONLINE1**, se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku, diskuse a sociální sítě, od roku 2017 do března 2021. Byl vytvořen v ČNK na základě dat, která laskavě poskytovala společnost **[[https://www.dataweps.com|Dataweps]]**. Tento korpus se dále neaktualizuje, časově na něj navazuje [[cnk:online:gen2|druhá generace korpusu]].
^ Název ^^ ONLINE1 ^
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 7,053 mld. |
^ ::: ^ Počet vět | 563 mil. |
^ Další informace ^ [[pojmy:referencni|Referenční]] | NE |
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE |
^ ::: ^ Období | leden 2017 – březen 2021 |
^ ::: ^ Rok zveřejnění | 2020 |
===== Struktura korpusů =====
Oproti korpusům psané češtiny [[cnk:syn|řady SYN]] má ONLINE1 několik specifik. Data přicházejí do korpusu z několika zdrojů (atribut ''source''):
* **news** -- internetová žurnalistika
* **facebook** -- posty, včetně reakcí (pouze do prosince 2020, v současnosti se tento segment nestahuje)
* **twitter** -- posty, včetně reakcí
* **instagram** -- k dispozici jsou data pouze v některých obdobích
* **discussions** -- webové diskuse (pod články na zpravodajských servech)
* **forums** -- samostatná webová fóra (nezávislá na zpravodajských portálech)
Tyto zdroje jsou s ohledem na rozdílné výzkumné účely, k nimž mohou být použity, a specifika svého obsahu zpracovávána odlišně. Texty z **internetového zpravodajství** (//news//) jsou v rámci jednoho dne shlukovány do jednoho dokumentu (struktura '''') na základě příslušnosti k jednomu zdroji (atribut ''resource''). Uvnitř této struktury jsou pak jednotlivé články vyděleny jako samostatné struktury ''''. Např. všechny články, které vyšly v jeden den na portálu [[https://zatecky.denik.cz/|zatecky.denik.cz]], jsou sdruženy do jedné struktury '''', jednotlivé články z daného portálu v daném dni mají každý svoji samostatnou strukturu ''''.
Všechny ostatní zdroje mají z důvodu obrovského množství dílčích textů, z nichž se skládají, strukturaci jinou. V rámci každého dne je v korpusu vždy jeden dokument '''' pro každý z těchto zdrojů, tj. jeden '''' pro diskuse, jeden pro fóra a jeden pro každou ze sociální sítí. Jednotlivé příspěvky v rámci těchto dokumentů mají samostatnou strukturu ''''.
===== Klasifikace textů =====
ONLINE korpusy vycházejí z [[cnk:klasifikace_textu_syn2015|klasifikace textů navržené pro SYN2015]], obohacují ji o některé specifické atributy. Společné s řadou SYN mají korpusy ONLINE tyto atributy: [[seznamy:txtype_group|txtype_group]], [[seznamy:txtype|txtype]], [[seznamy:genre_group|genre_group]], [[seznamy:genre|genre]], [[seznamy:med|medium]], pubyear (tj. rok vydání textu). Specifické jsou pak atributy date (tj. datum, kdy byl daný text zveřejněn), source, resource, resource_url, media_type a subject (titulek textu).
==== source ====
Zdroj dat -- nejobecnější klasifikace odlišující zpravodajství od diskusních platforem a sociálních sítí (viz soupis výše).
==== resource ====
Atribut zachycuje přesnější určení zdroje textu (typicky portál), konkrétní URL vedoucí přímo ke zdrojovému textu je pak uvedena v atributu ''resource_url'', který je k dispozici u jednotlivých struktur úroveň ''text''. Jeho hodnota atributu se liší u různých zdrojů dat.
* v případě //žurnalistiky// (v rámci struktury ''''): určení zdrojového portálu či jeho části, např. //blesk-cz//, //seznamzpravy// atp.
* v případě //sociálních sítí// (v rámci struktury ''''): určení autora příspěvku, resp. jeho uživatelského jména
* v případě //diskusí// (v rámci struktury ''''): určení výchozího zpravodajského portálu, v jehož rámci se diskuse vede, např. //novinky//, //zpravy.aktualne-cz//
* v případe //fór// (v rámci struktury ''''): určení portálu, např. //diskuze.modnipeklo-cz//, //emimino//
==== media_type ====
Atribut ''media_type'' je relevantní pouze pro webovou žurnalistiku (source: ''news''), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu [[http://www.mapamedii.cz|Mapa medií]]. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum. Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami:
* Analyticko-investigativní
* Antisystémové weby
* Bulvární media
* Hlavní proud
* Market-driven media
* Názorové deníky
* Ostatní
* Politický bulvár
* Stranické weby
* Web instituce
===== Anotace =====
Korpus je značkován standardními nástroji pro [[pojmy:morfologicka_analyza|morfologickou analýzu]] a [[pojmy:lemma|lemmatizaci]] korpusů řady SYN. Výsledky analýzy by měly být srovnatelné s korpusem [[cnk:syn2015|SYN2015]] (viz [[seznamy:tagy|popis morfologických značek]]).
====== Jak citovat korpusy ONLINE ======
Cvrček, V. – Procházka, P.: //ONLINE1: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz