AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:online:gen1 [2022/12/22 10:40] Václav Cvrčekcnk:online:gen1 [2022/12/22 14:42] (aktuální) – [ONLINE1 (1. generace)] Michal Křen
Řádek 2: Řádek 2:
 ====== ONLINE1 (1. generace) ====== ====== ONLINE1 (1. generace) ======
  
-Korpusy **ONLINE_NOW** a **ONLINE_ARCHIVE** dohromady tvoří monitorovací korpuskterý se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku, diskuse a sociální sítě, od roku 2017 do současnosti. Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost **[[https://www.dataweps.com|Dataweps]]**.+První generace monitorovacího korpusu, **ONLINE1**, se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku, diskuse a sociální sítě, od roku 2017 do března 2021. Byl vytvořen v ČNK na základě dat, která laskavě poskytovala společnost **[[https://www.dataweps.com|Dataweps]]**. Tento korpus se dále neaktualizuje, časově na něj navazuje [[cnk:online:gen2|druhá generace korpusu]].
  
-Obě části korpusu se liší svým rozsahem a periodicitou aktualizace: 
-  * **ONLINE_NOW** -- obsahuje data z aktuálního měsíce a 6 měsíců předcházejících; aktualizuje se denně 
-  * **ONLINE_ARCHIVE** -- obsahuje data od února 2017 až po měsíc, jímž začíná ONLINE_NOW; aktualizuje se vždy na začátku měsíce 
  
 <WRAP right 35%> <WRAP right 35%>
-^ <fs medium>Název</fs> ^^ <fs medium>ONLINE</fs> ^ +^ <fs medium>Název</fs> ^^ <fs medium>ONLINE1</fs> ^ 
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 6,274 mld. (v době zveřejnění) |   +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  7,053 mld. |   
-^ ::: ^ Počet vět <s> |  506,6 mil. (v době zveřejnění) |+^ ::: ^ Počet vět <s> |  563 mil. |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  NE |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  NE |  
 ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |   ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |  
 +^ ::: ^ Období |  leden 2017 – březen 2021 |
 ^ ::: ^ Rok zveřejnění |  2020 | ^ ::: ^ Rok zveřejnění |  2020 |
 </WRAP> </WRAP>
  
-Korpusy se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů a další manuální úpravy k odstranění průniku nejsou nutné. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje. 
  
-==== Aktualizace ==== 
  
-Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah **neustále mění**, a není možné se vracet k předchozím podobám korpusu. Vzhledem k tomu, že se můžou měnit i vstupní data (zdroje), nelze zaručit, že se nebude měnit ani struktura či způsob anotace korpusu. Jako referenční zdroj dat pro výzkum specifik internetové komunikace lze použít verzovaný [[cnk:net|korpus NET]]. 
  
-Aktualizace korpusu ONLINE_NOW probíhá každý den cca v 9:00, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 4 do 8 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE_NOW připojen ke korpusu ONLINE_ARCHIVE.  
- 
-Aktualizace korpusu ONLINE_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE_NOW (měsíc předcházející o půl roku aktuální datum). 
- 
-<fs smaller> 
-Např. 25. srpna obsahuje korpus ONLINE_NOW všechna data za období od 1. 2. do 24. 8. (včetně), tj. všechny dny aktuálního měsíce s výjimkou aktuálního dne + 6 měsíců předcházejících. Korpus ONLINE_ARCHIVE obsahuje všechna starší data až do 31. ledna, tj. do okamžiku, v kterém začíná ONLINE_NOW. Změna nastane u obou korpusů 2. září, kdy dojde k odloučení dat za únor z korpusu ONLINE_NOW a jejich připojení ke korpusu ONLINE_ARCHIVE a korpus ONLINE_NOW je nově tvořen pouze daty za období od 1. 3. do 1. 9. (včetně). 
-</fs>  
  
  
 ===== Struktura korpusů ===== ===== Struktura korpusů =====
  
-Oproti korpusům psané češtiny [[cnk:syn|řady SYN]] má ONLINE několik specifik. Data přicházejí do korpusu z několika zdrojů (atribut ''source''):+Oproti korpusům psané češtiny [[cnk:syn|řady SYN]] má ONLINE1 několik specifik. Data přicházejí do korpusu z několika zdrojů (atribut ''source''):
   * **news** -- internetová žurnalistika   * **news** -- internetová žurnalistika
   * **facebook** -- posty, včetně reakcí (pouze do prosince 2020, v současnosti se tento segment nestahuje)   * **facebook** -- posty, včetně reakcí (pouze do prosince 2020, v současnosti se tento segment nestahuje)
Řádek 69: Řádek 57:
 ==== media_type ==== ==== media_type ====
  
-Atribut ''media_type'' je relevantní pouze pro webovou žurnalistiku (source: ''news''), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu [[http://www.mapamedii.cz|Mapa medií]]. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum (viz [[http://www.mapamedii.cz/mapa/typologie/index.php|podrobný popis metody]]). Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami:+Atribut ''media_type'' je relevantní pouze pro webovou žurnalistiku (source: ''news''), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu [[http://www.mapamedii.cz|Mapa medií]]. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum. Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami:
  
   * Analyticko-investigativní   * Analyticko-investigativní
Řádek 91: Řádek 79:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Cvrček, V. – Procházka, P.: //ONLINE_NOW: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020 [cit. RRRR-MM-DD((Konkrétní časový údaj v pořadí rok-měsíc-den, např. 2020-10-02))]. Dostupný z WWW: http://www.korpus.cz +Cvrček, V. – Procházka, P.: //ONLINE1: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz
- +
-Cvrček, V. – Procházka, P.: //ONLINE_ARCHIVE: monitorovací korpus internetové češtiny//. Ústav Českého národního korpusu FF UK, Praha 2020 [cit. RRRR-MM-DD]. Dostupný z WWW: http://www.korpus.cz+
 </WRAP> </WRAP>