AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:online [2020/10/01 16:12] Václav Cvrčekcnk:online [2022/12/22 15:23] (aktuální) – [Generace korpusů ONLINE] Václav Cvrček
Řádek 2: Řádek 2:
 ====== Korpusy ONLINE ====== ====== Korpusy ONLINE ======
  
-Korpusy **ONLINE_NOW** a **ONLINE_ARCHIVE** dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku, diskuse a sociální sítě, od roku 2017 do současnosti. Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost [[https://www.dataweps.com|Dataweps]].+Korpusy ONLINE dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. primárně internetovou žurnalistiku, v menším měřítku a bez nároku na kontinuálnost pokrytí pak také diskuse a sociální sítě, od roku 2017 do současnosti. 
  
-Obě části korpusu se liší svým rozsahem a periodicitou aktualizace: +Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah **neustále ní**, není možné se vracet k edchozím podobám korpusu. Vzhledem k tomu, že se žou nit i vstupní data (zdroje)nelze zaručit, že se nebude nit ani struktura či způsob anotace korpusu. Jako [[pojmy:referencni|referenční]] zdroj dat pro výzkum specifik internetové komunikace lze použít verzovaný [[cnk:net|korpus NET]].
-  * **ONLINE_NOW** -- obsahuje data z aktuálního síce 6 měsíců edcházejících; aktualizuje se denně +
-  * **ONLINE_ARCHIVE** -- obsahuje data od února 2017 až po sícjímž začíná ONLINE_NOW; aktualizuje se na začátku síce+
  
-<WRAP right 35%> +Korpusy jsou [[pojmy:lemma|lemmatizovány]] [[pojmy:morfologicka_analyza|morfologicky značkovány]] pomocí aktuálních nástrojůkteré se užívají pro analýzu korpusů řady [[cnk:syn|SYN]].
-^ <fs medium>Název</fs> ^^ <fs medium>ONLINE</fs>+
-[[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6,274 mld. (v době zveřejnění) |   +
-^ ::: ^ Počet vět <s> |  506,6 mil. (v době zveřejnění) | +
-^ Další informace ^ [[pojmy:referencni|Referenční]] |  NE |   +
-^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |   +
-^ ::: ^ Rok zveřejnění |  2020 | +
-</WRAP>+
  
-Korpusy se v časových obdobích, které pokrývají, nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů bez nutnosti dalších manuálních úprav k odstranění průniku. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje.+===== Generace korpusů ONLINE =====
  
-==== Aktualizace ====+Korpus ONLINE se vyskytuje ve dvou generacích:
  
-Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizoványTo znamenáže se jejich obsah **neustále mění**a není možné se vracet k předchozím podobám korpusuVzhledem k tomuže se můžou měnit i vstupní data (zdroje), nelze zaručit, že se nebude měnit ani struktura či způsob anotace korpusu.+^ Generace ^ Název korpusu ^ Období ^ Složení ^ Rok zveřejnění ^ 
 +|  1     | [[cnk:online:gen1|ONLINE1]] | leden 2017 – březen 2021 | online žurnalistikasoc. sítě, diskuse, fóra |  2020 | 
 +|  2     | [[cnk:online:gen2|ONLINE2_NOWONLINE2_ARCHIVE]] | duben 2021 – současnost | online žurnalistika |  2022 |
  
-Aktualizace korpusu ONLINE_NOW probíhá každý den cca v 9:00, kdy je zveřejněn obsah z předchozího dne. Objem aktualizace kolísá podle množství postihovaného textového materiálu od do. Při změně měsíce (první den v měsíci), je nejstarší měsíc korpusu ONLINE_NOW připojen ke korpusu ONLINE_ARCHIVE.  
  
-Aktualizace korpusu ONLINE_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibude měsíc, který byl odloučen z korpusu ONLINE_NOW (typicky měsíc předcházející o půl roku aktuální datum). Např.  
  
-<fs smaller>Např. 31. srpna obsahuje korpus ONLINE_NOW všechna data za období 1. 2. až 31. 8. etnětj. echny dny aktuálního měsíce + 6 měsíců předcházejících1. září dojde k odloučení dat za únor jejich připojení ke korpusu ONLINE_ARCHIVE a korpus ONLINE_NOW je tvořen pouze daty za období 1.3 až 1. 9. včetně.</fs> +Korpusy se pokrytých časových obdobích nepřekrývajípro hledání celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů a další manuální úpravy k odstranění průniku nejsou nutnéKorpusy jsou identické ve své struktuřznačkování, následující popis tedy mezi nimi nerozlišuje.
  
 +<WRAP round info 80%>
 +**Poznámka ke zpětné kompatibilitě:**
  
-===== Struktura korpusů ===== +Uložené dotazy na 1. generaci korpusů ONLINE (tjONLINE_NOW ONLINE_ARCHIVEpo zveřejnění 2generace nemusí fungovat (mjv důsledku změny jména korpusů)Korpus ONLINE1 obsahuje nicméně všechny texty této edchozí generace a replikací dotazů na něm by mělo být možné dospět ke stejným výsledkům.
- +
-Oproti korpusům psané češtiny [[cnk:syn|řady SYN]] má ONLINE několik specifik. Data přicházejí do korpusu z několika zdrojů (atribut ''source''): +
-  * news -- internetová žurnalistika +
-  * facebook +
-  * twitter +
-  * instagram -- k dispozici jsou data pouze v některých obdobích +
-  * discussions -- webové diskuse (pod články na zpravodajských servech) +
-  * forums -- samostatná webová fóra (nezávislá na zpravodajských portálech) +
- +
-Tyto zdroje jsou s ohledem na rozdílné výzkumné účely, k nimž mohou být použity, a specifika svého obsahu zpracovávána odlišněTexty z **internetového zpravodajství** (//news//) jsou shlukovány do jednoho dokumentu (struktura ''<doc>'') na základě data příslušnosti k jednomu zdroji (atribut ''resource''). Vnitřně jsou pak jednotlivé články vyděleny jako samostatné struktury ''<text>''Např. všechny články, které vyšly v jeden den na portálu [[https://zatecky.denik.cz/|zatecky.denik.cz]] jsou sdruženy do jedné struktury ''<doc>'', jednotlivé články mají každý svoji samostatnou strukturu ''<text>''+
- +
-Všechny ostatní zdroje mají z vodu obrovského množství dílčích textů, z nichž se skládají, strukturu jinou. V rámci každého dne je v korpusu vždy jeden dokument ''<doc>'' pro každý z těchto zdrojů, tjjeden pro diskuse, jeden pro fóra a jeden pro každou ze sociální sítí. Jednotlivé příspěvky rámci těchto dokumetnů mají samostatnou strukturu ''<text>''+
- +
- +
- +
- +
-===== Klasifikace textů ===== +
- +
-ONLINE korpusy vycházejí z [[cnk:klasifikace_textu_syn2015|klasifikace textů navržené pro SYN2015]], obohacují ji o některé specifické atributy. +
- +
-==== source ==== +
- +
-Zdroj dat -- nejhrubější klasifikace (viz soupis výše). +
- +
-==== resource ==== +
- +
-Hodnota atributu se liší u různých zdrojů dat. +
- +
-  * v ípadě //žurnalistiky// (v rámci struktury ''<doc>''): určení zdrojového portálu , např. //blesk-cz//, //seznamzpravy// atp. +
-  * v případě //sociálních sítí// (v rámci struktury ''<text>''): určení autora příspěvku  +
-  * v případě //diskusí// (v rámci struktury ''<text>''): určení výchozího zpravodajského portálu, v jehož rámci se diskuse vede, např.  //novinky//, //zpravy.aktualne-cz// +
-  * v případe //fór// (v rámci struktury ''<text>''): určení portálu, např. //diskuze.modnipeklo-cz//, //emimino// +
- +
- +
-==== media_type ==== +
- +
-Atribut media_type je relevantní pouze pro webovou žurnalistiku (source: news), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu [[http://www.mapamedii.cz|Mapa medií]]. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum. Původní klasifikace byla pro účely značkování korpusu ONLINE obohacewna o některé okrajové typy a počítá s následujícími položkami: +
- +
-  * Analyticko-investigativní +
-  * Antisystémové weby +
-  * Bulvární media +
-  * Hlavní proud +
-  * Market-driven media +
-  * Názorové deníky +
-  * Ostatní +
-  * Politický bulvár +
-  * Stranické weby +
-  * Web instituce +
- +
- +
- +
- +
-===== Anotace ===== +
- +
-Korpus je značkován standardními nástroji pro [[pojmy:morfologicka_analyza|morfologickou analýzu]] a [[pojmy:lemma|lemmatizaci]] korpusů řady SYN. Výsledky analýzy by měly být srovnatelné s korpusem [[cnk:syn2015|SYN2015]]. +
-====== Jak citovat SYN2015 ====== +
- +
-<WRAP round tip 70%> +
-Cvrček, V. – Procházka, P.: //ONLINE_NOW: monitorovací korpus internetové češtiny, <DOPLNIT ČASOVÝ ROZSAH>//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz +
- +
-Cvrček, V. – Procházka, P.: //ONLINE_ARCHIVE: monitorovací korpus internetové češtiny, <DOPLNIT ČASOVÝ ROZSAH>//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz+
 </WRAP> </WRAP>
-