AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
en:cnk:online [2020/11/02 17:59] Michal Křenen:cnk:online [2022/12/22 15:25] (current) – [Generations of ONLINE corpora] Václav Cvrček
Line 2: Line 2:
 ====== ONLINE corpora ====== ====== ONLINE corpora ======
  
-ONLINE_NOW and ONLINE_ARCHIVE are two corpora which together create a monitor corpus of the dynamic content of the Czech web, i.e. internet journalism, discussions, forums and social networks. The span of the corpus is since 2017 till the present. It has been created at the CNC with the help of the data kindly provided by the [[https://www.dataweps.com|Dataweps]] company.+ONLINE corpora together create a monitor corpus of the dynamic content of the Czech web, i.e. predominantly internet journalism, to some extent also  discussions, forums and social networks. The span of the corpus is since 2017 till the present. 
  
-Both corpora differ in their extent and periodicity of updates+The key feature of the ONLINE corpora are regular updates. This means that their contents **change continually**, and it is thus not possible to get back to previous versions of the corpora. Given that the input data (sources) can change, there is no guarantee that the structure as well as the annotation of the ONLINE corpus will remain the same. If you need an invariable reference corpus for the research of the specifics of internet communication, you can make use of the [[en:cnk:net|korpus NET]] corpus.
-  * **ONLINE_NOW** -- contains data from the current month plus 6 preceding months; updated daily +
-  * **ONLINE_ARCHIVE** -- contains data since Feb 2017 until the date when ONLINE_NOW begins; updated every month+
  
-<WRAP right 35%> +The corpus is annotated using standard tools for the [[en:pojmy:morfologicka_analyza|morphological analysis]] and [[en:pojmy:lemma|lemmatization]] of the SYN-series corpora. The annotation is thus comparable e.g. with the [[en:cnk:syn2015|SYN2015]] corpus.
-^ <fs medium>Name</fs> ^^ <fs medium>ONLINE</fs>+
-^ Size (as of Nov 2020) ^ Number of [[pojmy:token|tokens]] | 6.274 billion |   +
-^ ::: ^ Number of sentences <s> |  506.6 million | +
-^ Additional information ^ [[pojmy:referencni|Reference]] |  NO |   +
-^ ::: ^ [[pojmy:reprezentativnost|Reprezentative]] |  NO |   +
-^ ::: ^ Year of publication |  2020 | +
-</WRAP>+
  
-The ONLINE_NOW and ONLINE_ARCHIVE corpora are disjunctive, i.e. there is no intersection. Therefore, for searching in the whole time period since 2017, the results of queries on both corpora can simply be joined together, without any manual corrections. As both corpora are identical in their structure and annotation, the following description does not distinguish between them. 
  
-==== Update ====+===== Generations of ONLINE corpora =====
  
-Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah **neustále mění**, a není možné se vracet k předchozím podobám korpusu. Vzhledem k tomu, že se můžou měnit i vstupní data (zdroje), nelze zaručit, že se nebude měnit ani struktura či způsob anotace korpusu. Jako referenční zdroj dat pro výzkum specifik internetové komunikace lze použít verzovaný [[cnk:net|korpus NET]].+There are two generations of ONLINE corpora:
  
-Aktualizace korpusu ONLINE_NOW probíhá každý den cca v 9:00kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 4 do 8 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE_NOW připojen ke korpusu ONLINE_ARCHIVE+^ Generation ^ Corpus name ^ Period covered ^ Composition ^ Year of publication ^ 
 +|  1.      | [[en:cnk:online:gen1|ONLINE1]] | January 2017 – March 2021 | online journalismsocial media, discussions, forums |  2020 | 
 +|  2     | [[en:cnk:online:gen2|ONLINE2_NOW, ONLINE2_ARCHIVE]] | April 2021 – present | online journalism |  2022 |
  
-Aktualizace korpusu ONLINE_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE_NOW (měsíc předcházející o půl roku aktuální datum). 
  
-<fs smaller> +The ONLINE corpora are disjunctivei.ethere is no intersectionThereforefor searching in the whole time period since 2017the results of queries on both corpora can simply be joined together, no manual corrections are neededAs both corpora are identical in their structure and annotationthe following description does not distinguish between them.
-Např. 25. srpna obsahuje korpus ONLINE_NOW všechna data za období od 1. 2. do 24. 8. (včetně)tjvšechny dny aktuálního měsíce s výjimkou aktuálního dne + 6 měsíců předcházejícíchKorpus ONLINE_ARCHIVE obsahuje všechna starší data až do 31lednatj. do okamžikuv kterém začíná ONLINE_NOWZměna nastane u obou korpusů 2. záříkdy dojde k odloučení dat za únor z korpusu ONLINE_NOW a jejich připojení ke korpusu ONLINE_ARCHIVE a korpus ONLINE_NOW je nově tvořen pouze daty za období od 1. 3. do 1. 9. (včetně). +
-</fs> +
  
 +<WRAP round info 80%>
 +**Note on backwards compatibility:**
  
-===== Struktura korpusů ===== +Saved queries on the 1st generation ONLINE corpora (i.e. ONLINE_NOW and ONLINE_ARCHIVEmay not work after the 2nd generation is published (among other things due to change of corpus name). Howeverthe ONLINE1 corpus contains all the texts of this previous generation and by replicating queries on itit should be possible to arrive at the same results.
- +
-Oproti korpusům psané češtiny [[cnk:syn|řady SYN]] má ONLINE několik specifik. Data přicházejí do korpusu z několika zdrojů (atribut ''source''): +
-  * **news** -- internetová žurnalistika +
-  * **facebook** -- posty, včetně reakcí +
-  * **twitter** -- posty, včetně reakcí +
-  * **instagram** -- k dispozici jsou data pouze v některých obdobích +
-  * **discussions** -- webové diskuse (pod články na zpravodajských servech) +
-  * **forums** -- samostatná webová fóra (nezávislá na zpravodajských portálech) +
- +
-Tyto zdroje jsou s ohledem na rozdílné výzkumné účely, k nimž mohou být použity, a specifika svého obsahu zpracovávána odlišněTexty z **internetového zpravodajství** (//news//) jsou v rámci jednoho dne shlukovány do jednoho dokumentu (struktura ''<doc>'') na základě příslušnosti k jednomu zdroji (atribut ''resource''). Uvnitř této struktury jsou pak jednotlivé články vyděleny jako samostatné struktury ''<text>''. Např. všechny články, které vyšly v jeden den na portálu [[https://zatecky.denik.cz/|zatecky.denik.cz]], jsou sdruženy do jedné struktury ''<doc>'', jednotlivé články z daného portálu v daném dni mají každý svoji samostatnou strukturu ''<text>''+
- +
-Všechny ostatní zdroje mají z důvodu obrovského množství dílčích textů, z nichž se skládají, strukturaci jinou. V rámci každého dne je v korpusu vždy jeden dokument ''<doc>'' pro každý z těchto zdrojů, tj. jeden ''<doc>'' pro diskuse, jeden pro fóra a jeden pro každou ze sociální sítí. Jednotlivé příspěvky v rámci těchto dokumentů mají samostatnou strukturu ''<text>''+
- +
- +
- +
- +
-===== Klasifikace textů ===== +
- +
-ONLINE korpusy vycházejí z [[cnk:klasifikace_textu_syn2015|klasifikace textů navržené pro SYN2015]], obohacují ji o některé specifické atributy. Společné s řadou SYN mají korpusy ONLINE tyto atributy: [[seznamy:txtype_group|txtype_group]], [[seznamy:txtype|txtype]], [[seznamy:genre_group|genre_group]], [[seznamy:genre|genre]], [[seznamy:med|medium]], pubyear (tj. rok vydání textu). Specifické jsou pak atributy date (tj. datum, kdy byl daný text zveřejněn), source, resource, resource_url, media_type a subject (titulek textu). +
- +
-==== source ==== +
- +
-Zdroj dat -- nejobecnější klasifikace odlišující zpravodajství od diskusních platforem a sociálních sítí (viz soupis výše). +
- +
-==== resource ==== +
- +
-Atribut zachycuje přesnější určení zdroje textu (typicky portál), konkrétní URL vedoucí přímo ke zdrojovému textu je pak uvedena v atributu ''resource_url'', který je k dispozici u jednotlivých struktur úroveň ''text''. Jeho hodnota atributu se liší u různých zdrojů dat. +
- +
-  * v případě //žurnalistiky// (v rámci struktury ''<doc>''): určení zdrojového portálu či jeho části, např//blesk-cz////seznamzpravy// atp. +
-  * v případě //sociálních sítí// (v rámci struktury ''<text>''): určení autora příspěvku, resp. jeho uživatelského jména +
-  * v případě //diskusí// (v rámci struktury ''<text>''): určení výchozího zpravodajského portálu, v jehož rámci se diskuse vede, např.  //novinky//, //zpravy.aktualne-cz// +
-  * v případe //fór// (v rámci struktury ''<text>''): určení portálu, např. //diskuze.modnipeklo-cz//, //emimino// +
- +
- +
-==== media_type ==== +
- +
-Atribut ''media_type'' je relevantní pouze pro webovou žurnalistiku (source: ''news''), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu [[http://www.mapamedii.cz|Mapa medií]]. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum (viz [[http://www.mapamedii.cz/mapa/typologie/index.php|podrobný popis metody]]). Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami: +
- +
-  * Analyticko-investigativní +
-  * Antisystémové weby +
-  * Bulvární media +
-  * Hlavní proud +
-  * Market-driven media +
-  * Názorové deníky +
-  * Ostatní +
-  * Politický bulvár +
-  * Stranické weby +
-  * Web instituce +
- +
- +
- +
- +
-===== Anotace ===== +
- +
-Korpus je značkován standardními nástroji pro [[pojmy:morfologicka_analyza|morfologickou analýzu]] a [[pojmy:lemma|lemmatizaci]] korpusů řady SYN. Výsledky analýzy by měly být srovnatelné s korpusem [[cnk:syn2015|SYN2015]] (viz [[seznamy:tagy|popis morfologických značek]]). +
-====== Jak citovat korpusy ONLINE ====== +
- +
-<WRAP round tip 70%> +
-CvrčekV. – Procházka, P.: //ONLINE_NOW: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020 [cit. RRRR-MM-DD((Konkrétní časový údaj v pořadí rok-měsíc-den, např. 2020-10-02))]. Dostupný z WWW: http://www.korpus.cz +
- +
-Cvrček, V. – Procházka, P.: //ONLINE_ARCHIVE: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020 [cit. RRRR-MM-DD]. Dostupný z WWW: http://www.korpus.cz+
 </WRAP> </WRAP>
- 
-