První generace monitorovacího korpusu, ONLINE1, se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku, diskuse a sociální sítě, od roku 2017 do března 2021. Byl vytvořen v ČNK na základě dat, která laskavě poskytovala společnost Dataweps. Tento korpus se dále neaktualizuje, časově na něj navazuje druhá generace korpusu.
Název | ONLINE1 | |
---|---|---|
Pozice | Počet pozic (tokenů) | 7,053 mld. |
Počet vět <s> | 563 mil. | |
Další informace | Referenční | NE |
Reprezentativní | NE | |
Období | leden 2017 – březen 2021 | |
Rok zveřejnění | 2020 |
Oproti korpusům psané češtiny řady SYN má ONLINE1 několik specifik. Data přicházejí do korpusu z několika zdrojů (atribut source
):
Tyto zdroje jsou s ohledem na rozdílné výzkumné účely, k nimž mohou být použity, a specifika svého obsahu zpracovávána odlišně. Texty z internetového zpravodajství (news) jsou v rámci jednoho dne shlukovány do jednoho dokumentu (struktura <doc>
) na základě příslušnosti k jednomu zdroji (atribut resource
). Uvnitř této struktury jsou pak jednotlivé články vyděleny jako samostatné struktury <text>
. Např. všechny články, které vyšly v jeden den na portálu zatecky.denik.cz, jsou sdruženy do jedné struktury <doc>
, jednotlivé články z daného portálu v daném dni mají každý svoji samostatnou strukturu <text>
.
Všechny ostatní zdroje mají z důvodu obrovského množství dílčích textů, z nichž se skládají, strukturaci jinou. V rámci každého dne je v korpusu vždy jeden dokument <doc>
pro každý z těchto zdrojů, tj. jeden <doc>
pro diskuse, jeden pro fóra a jeden pro každou ze sociální sítí. Jednotlivé příspěvky v rámci těchto dokumentů mají samostatnou strukturu <text>
.
ONLINE korpusy vycházejí z klasifikace textů navržené pro SYN2015, obohacují ji o některé specifické atributy. Společné s řadou SYN mají korpusy ONLINE tyto atributy: txtype_group, txtype, genre_group, genre, medium, pubyear (tj. rok vydání textu). Specifické jsou pak atributy date (tj. datum, kdy byl daný text zveřejněn), source, resource, resource_url, media_type a subject (titulek textu).
Zdroj dat – nejobecnější klasifikace odlišující zpravodajství od diskusních platforem a sociálních sítí (viz soupis výše).
Atribut zachycuje přesnější určení zdroje textu (typicky portál), konkrétní URL vedoucí přímo ke zdrojovému textu je pak uvedena v atributu resource_url
, který je k dispozici u jednotlivých struktur úroveň text
. Jeho hodnota atributu se liší u různých zdrojů dat.
<doc>
): určení zdrojového portálu či jeho části, např. blesk-cz, seznamzpravy atp.<text>
): určení autora příspěvku, resp. jeho uživatelského jména<text>
): určení výchozího zpravodajského portálu, v jehož rámci se diskuse vede, např. novinky, zpravy.aktualne-cz<text>
): určení portálu, např. diskuze.modnipeklo-cz, emimino
Atribut media_type
je relevantní pouze pro webovou žurnalistiku (source: news
), kde poskytuje klasifikaci webových portálů na základě typologie vypracované týmem J. Šlerky v rámci projektu Mapa medií. Klasifikace je vytvořena na základě preferencí čtenářů, kdy do jedné skupiny jsou sdruženy ty portály, které mají podobné publikum. Původní klasifikace byla pro účely značkování korpusu ONLINE obohacena o některé okrajové typy a počítá s následujícími položkami:
Korpus je značkován standardními nástroji pro morfologickou analýzu a lemmatizaci korpusů řady SYN. Výsledky analýzy by měly být srovnatelné s korpusem SYN2015 (viz popis morfologických značek).
Cvrček, V. – Procházka, P.: ONLINE1: monitorovací korpus internetové češtiny. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz