Nastavení

Toto je starší verze dokumentu!


Korpus NET

Název NET NET v2
Pozice Počet pozic (tokenů) 51 733 873 176 365 880
Počet slovních tvarů (wordů) 1 245 717 2 637 707
Počet lemmat 750 650 1 744 001
Struktury Počet dokumentů <doc> 1 279 12 738
Počet textů <text> 267 026 1 817 088
Počet odstavců <p> 267 026 1 817 088
Počet vět <s> 2 622 636 8 905 016
Další informace Referenční NE NE
Reprezentativní NE NE
Rok zveřejnění 2019 2021

Korpus NET je první verzí synchronního korpusu česky psané polooficiální internetové komunikace. Korpus si neklade nároky na reprezentativnost, v současné době se skládá pouze ze dvou základních částí: diskusních fór a osobních blogů. Datové pokrytí by se však mělo s dalšími verzemi korpusu zvyšovat. Protože je cílem vzniku korpusu mapování vybraných oblastí internetové komunikace, snaží se korpus NET každou konkrétní doménu pokrýt co nejdále do minulosti a zároveň se na ni soustředit také do budoucna tak, aby další verze korpusu mohly zachycovat jejich proměnu v čase.

Diskusní fóra

Tato část korpusu se zaměřuje výhradně na diskusní fóra vytvořená s použitím technologie phpBB; její součástí tedy nejsou komentáře či diskuse pod články ani data ze sociálních sítí. Výběr vzorku diskusních fór zachycených korpusem NET byl náhodný, jeho velikost (počet diskusních fór) se bude výhledově zvětšovat.

Osobní blogy

Jedná se většinou o vedlejší součást zpravodajských serverů nebo internetových magazínů (webové stránky s kategorií blogů). Korpus nezachycuje firemní ani jiné formálně psané blogy.

Verze 2

Korpus NET ve verzi 2 prošel změnou zejména po obsahové stránce. Přidána byla aktualizovaná data za rok 2020, značně se také zvýšil počet stahovaných blogů a diskusních fór (aktuálně více než 120 domén) a tím celková vyváženost stažených dat.

Jak citovat

Jeziorský, T.: NET: korpus polooficiální internetové komunikace. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: https://www.korpus.cz.