Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:net [2019/12/18 14:44]
Michal Křen
cnk:net [2021/02/10 14:28] (aktuální)
Michal Křen [Verze 2]
Řádek 3: Řádek 3:
 ====== Korpus NET ====== ====== Korpus NET ======
  
-Korpus NET je první verzí synchronního korpusu česky psané polooficiální internetové komunikace. současné době se skládá ze dvou základních částídiskusních fór a osobních blogů; datové pokrytí by se však mělo do budoucna dále zvyšovat. Protože je cílem vzniku korpusu mapování vybraných oblastí internetové komunikace, snaží se korpus NET každou konkrétní doménu pokrýt co nejdále do minulosti a zároveň se na ni soustředit také do budoucna tak, aby další verze korpusu mohly zachycovat jejich proměnu v čase.+<WRAP right 45%> 
 +^ <fs medium>Název</fs> ^^ <fs medium>NET</fs> ^ <fs medium>NET v2</fs>
 +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  51 733 873 |  176 365 880 | 
 +^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  1 245 717 |  2 637 707 | 
 +^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  750 650 |  1 744 001 | 
 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> |  1 279 |  12 738 | 
 +^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] <text> |  267 026 |  1 817 088 | 
 +^ ::: ^ Počet odstavců <p> |  267 026 |  1 817 088 | 
 +^ ::: ^ Počet vět <s> |  2 622 636 |  8 905 016 | 
 +^ Další informace ^ [[pojmy:referencni|Referenční]] |  NE |  NE | 
 +^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |  NE | 
 +^ ::: ^ Rok zveřejnění |  2019 |  2021 | 
 +</WRAP> 
 + 
 +Korpus NET je první verzí synchronního korpusu česky psané polooficiální internetové komunikace. Korpus si neklade nároky na reprezentativnost,současné době se skládá pouze ze dvou základních částídiskusních fór a osobních blogů. Datové pokrytí by se však mělo s dalšími verzemi korpusu zvyšovat. Protože je cílem vzniku korpusu mapování vybraných oblastí internetové komunikace, snaží se korpus NET každou konkrétní doménu pokrýt co nejdále do minulosti a zároveň se na ni soustředit také do budoucna tak, aby další verze korpusu mohly zachycovat jejich proměnu v čase.
  
 ==== Diskusní fóra ==== ==== Diskusní fóra ====
  
-Tato část se zaměřuje výhradně diskusní fóra vytvořená s použitím technologie phpBB; její součástí tedy nejsou komentáře či diskuse pod články ani data ze sociálních sítí. Výběr diskusních fór byl náhodný, výhledově má za cíl pokrýt jejich reprezentativní část. +Tato část korpusu se zaměřuje výhradně na diskusní fóra vytvořená s použitím technologie phpBB; její součástí tedy nejsou komentáře či diskuse pod články ani data ze sociálních sítí. Výběr vzorku diskusních fór zachycených korpusem NET byl náhodný, jeho velikost (počet diskusních fór) se bude výhledově zvětšovat.
- +
-Texty jsou malé až střední velikosti a často velmi neformálního charakteru. Kromě základních atributů obsahují jednotlivé texty mimojiné také informaci o názvu diskusního vlákna.+
  
 ==== Osobní blogy ==== ==== Osobní blogy ====
  
-Tato část pokrývá oblast neformálních textů, jejíž roli v současné době přebírají sociální sítě. Jedná se většinou o vedlejší součást zpravodajství či internetových magazínů (webové stránky s kategorií blogů), její součástí tedy nejsou firemní ani jiné formálně psané blogy. Výběr tvoří nejpopulárnější / nejfrekventovanější zástupci webových stránek.+Jedná se většinou o vedlejší součást zpravodajských serverů nebo internetových magazínů (webové stránky s kategorií blogů). Korpus nezachycuje firemní ani jiné formálně psané blogy. 
 + 
 +===== Verze 2 (2021) ===== 
 + 
 +Korpus NET ve verzi 2 prošel změnou zejména po obsahové stránce. Přidána byla aktualizovaná data za rok 2020, značně se také zvýšil počet stahovaných blogů a diskusních fór (aktuálně více než 120 domén), a tím také pokrytí korpusových dat. 
 + 
 +===== Jak citovat ===== 
 + 
 +<WRAP round tip 70%> 
 +Jeziorský, T.: //NET v1: korpus polooficiální internetové komunikace//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]]. 
 + 
 +Jeziorský, T.: //NET v2: korpus polooficiální internetové komunikace//. Ústav Českého národního korpusu FF UK, Praha 2021 dostupný z: [[https://www.korpus.cz]]. 
 + 
 +</WRAP>
  
-Texty jsou střední velikosti a lehce neformálního charakteru, z toho důvodu jsou častěji formátovány do odstavců a opatřeny titulkem.