AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpusy ONLINE

Korpusy ONLINE_NOW a ONLINE_ARCHIVE dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah na českém internetu, tj. internetovou žurnalistiku, diskuse a sociální sítě. Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost Dataweps.

Obě části korpusu se liší svým rozsahem a periodicitou aktualizace:

  • ONLINE_NOW – obsahuje data z aktuálního měsíce a 6 měsíců předcházejících, aktualizuje se denně
  • ONLINE_ARCHIVE – obsahuje data od února 2017 až po měsíc, jímž začíná ONLINE_NOW, aktualizuje se na začátku měsíce
Název ONLINE
Pozice Počet pozic (tokenů) 6,274 mld. (v době zveřejnění)
Počet vět <s> 506,6 mil. (v době zveřejnění)
Další informace Referenční NE
Reprezentativní NE
Rok zveřejnění 2020

Korpusy se v časových obdobích, které pokrývají, nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů bez nutnosti dalších manuálních úprav k odstranění průniku. Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje.

Klíčovou vlastností monitorovacích korpusů je to, že jsou pravidelně aktualizovány. To znamená, že se jejich obsah neustále mění, a není možné se vracet k předchozím podobám korpusu. Vzhledem k tomu, že se můžou měnit i vstupní data (zdroje), nelze zaručit, že se nebude měnit ani struktura či způsob anotace korpusu.

Struktura korpusů

Oproti korpusům psané češtiny řady SYN má ONLINE několik specifik. Data přicházejí do korpusu z několika zdrojů (atribut source):

  • news – internetová žurnalistika
  • facebook
  • twitter
  • instagram – k dispozici jsou data pouze v některých obdobích
  • discussions – webové diskuse (pod články na zpravodajských servech)
  • forums – samostatná webová fóra (nezávislá na zpravodajských portálech)

Tyto zdroje jsou s ohledem na rozdílné výzkumné účely, k nimž mohou být použity, a specifika svého obsahu zpracovávána odlišně. Texty z internetového zpravodajství (news) jsou shlukovány do jednoho dokumentu (struktura <doc>) na základě data a příslušnosti k jednomu zdroji (atribut resource). Vnitřně jsou pak jednotlivé články vyděleny jako samostatné struktury <text>. Např. všechny články, které vyšly v jeden den na portálu zatecky.denik.cz jsou sdruženy do jedné struktury <doc>, jednotlivé články mají každý svoji samostatnou strukturu <text>.

Všechny ostatní zdroje mají z důvodu obrovského množství dílčích textů, z nichž se skládají, strukturu jinou. V rámci každého dne je v korpusu vždy jeden dokument <doc> pro každý z těchto zdrojů, tj. jeden pro diskuse, jeden pro fóra a jeden pro každou ze sociální sítí. Jednotlivé příspěvky v rámci těchto dokumetnů mají samostatnou strukturu <text>.

Klasifikace textů

ONLINE korpusy vycházejí z klasifikace textů navržené pro SYN2015, obohacují ji o některé specifické atributy.

source

Zdroj dat – nejhrubější klasifikace (viz soupis výše).

resource

Hodnota atributu se liší u různých zdrojů dat.

  • v případě žurnalistiky (v rámci struktury <doc>): určení zdrojového portálu , např. blesk-cz, seznamzpravy atp.
  • v případě sociálních sítí (v rámci struktury <text>): určení autora příspěvku
  • v případě diskusí (v rámci struktury <text>): určení výchozího zpravodajského portálu, v jehož rámci se diskuse vede, např. novinky, zpravy.aktualne-cz
  • v případe fór (v rámci struktury <text>): určení portálu, např. diskuze.modnipeklo-cz, emimino

media_type

Atribut media_type je relevantní pouze pro webovou žurnalistiku (source: news), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu Mapa medií. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum. Původní klasifikace byla pro účely značkování korpusu ONLINE obohacewna o některé okrajové typy a počítá s následujícími položkami:

  • Analyticko-investigativní
  • Antisystémové weby
  • Bulvární media
  • Hlavní proud
  • Market-driven media
  • Názorové deníky
  • Ostatní
  • Politický bulvár
  • Stranické weby
  • Web instituce

Anotace

Korpus je značkován standardními nástroji pro morfologickou analýzu a lemmatizaci korpusů řady SYN. Výsledky analýzy by měly být srovnatelné s korpusem SYN2015.

Jak citovat SYN2015

Cvrček, V. – Procházka, P.: ONLINE_NOW: monitorovací korpus internetové češtiny, <DOPLNIT ČASOVÝ ROZSAH>. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz

Cvrček, V. – Procházka, P.: ONLINE_ARCHIVE: monitorovací korpus internetové češtiny, <DOPLNIT ČASOVÝ ROZSAH>. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz