Nastavení

Toto je starší verze dokumentu!


Korpus NET

Název NET
Pozice Počet pozic (tokenů) 51 733 873
Počet slovních tvarů (wordů) 1 245 717
Počet lemmat 750 650
Struktury Počet dokumentů <doc> 1 279
Počet textů <text> 267 026
Počet odstavců <p> 267 026
Počet vět <s> 2 622 636
Další informace Referenční NE
Reprezentativní NE
Rok zveřejnění 2020

Korpus NET je první verzí synchronního korpusu česky psané polooficiální internetové komunikace. Korpus si neklade nároky na reprezentativnost, v současné době se skládá pouze ze dvou základních částí: diskusních fór a osobních blogů. Datové pokrytí by se však mělo s dalšími verzemi korpusu zvyšovat. Protože je cílem vzniku korpusu mapování vybraných oblastí internetové komunikace, snaží se korpus NET každou konkrétní doménu pokrýt co nejdále do minulosti a zároveň se na ni soustředit také do budoucna tak, aby další verze korpusu mohly zachycovat jejich proměnu v čase.

Diskusní fóra

Tato část korpusu se zaměřuje výhradně na diskusní fóra vytvořená s použitím technologie phpBB; její součástí tedy nejsou komentáře či diskuse pod články ani data ze sociálních sítí. Výběr vzorku diskusních fór zachycených korpusem NET byl náhodný, jeho velikost (počet diskusních fór) se bude výhledově zvětšovat.

Osobní blogy

Jedná se většinou o vedlejší součást zpravodajských serverů nebo internetových magazínů (webové stránky s kategorií blogů). Korpus nezachycuje firemní ani jiné formálně psané blogy.

Jak citovat

Jeziorský, T.: NET: korpus polooficiální internetové komunikace. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: https://www.korpus.cz.