Toto je starší verze dokumentu!
Korpus NET
Název | NET | |
---|---|---|
Pozice | Počet pozic (tokenů) | 51 733 873 |
Počet slovních tvarů (wordů) | 1 245 717 | |
Počet lemmat | 750 650 | |
Struktury | Počet dokumentů <doc> | 1 279 |
Počet textů <text> | 267 026 | |
Počet odstavců <p> | 267 026 | |
Počet vět <s> | 2 622 636 | |
Další informace | Referenční | NE |
Reprezentativní | NE | |
Rok zveřejnění | 2020 |
Korpus NET je první verzí synchronního korpusu česky psané polooficiální internetové komunikace. Korpus si neklade nároky na reprezentativnost, v současné době se skládá pouze ze dvou základních částí: diskusních fór a osobních blogů. Datové pokrytí by se však mělo s dalšími verzemi korpusu zvyšovat. Protože je cílem vzniku korpusu mapování vybraných oblastí internetové komunikace, snaží se korpus NET každou konkrétní doménu pokrýt co nejdále do minulosti a zároveň se na ni soustředit také do budoucna tak, aby další verze korpusu mohly zachycovat jejich proměnu v čase.
Diskusní fóra
Tato část korpusu se zaměřuje výhradně na diskusní fóra vytvořená s použitím technologie phpBB; její součástí tedy nejsou komentáře či diskuse pod články ani data ze sociálních sítí. Výběr vzorku diskusních fór zachycených korpusem NET byl náhodný, jeho velikost (počet diskusních fór) se bude výhledově zvětšovat.
Osobní blogy
Jedná se většinou o vedlejší součást zpravodajských serverů nebo internetových magazínů (webové stránky s kategorií blogů). Korpus nezachycuje firemní ani jiné formálně psané blogy.
Jak citovat
Jeziorský, T.: NET: korpus polooficiální internetové komunikace. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: https://www.korpus.cz.