Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:net [2019/12/20 15:06]
Michal Křen [Osobní blogy]
cnk:net [2021/02/10 14:28] (aktuální)
Michal Křen [Verze 2]
Řádek 2: Řádek 2:
  
 ====== Korpus NET ====== ====== Korpus NET ======
 +
 +<WRAP right 45%>
 +^ <fs medium>Název</fs> ^^ <fs medium>NET</fs> ^ <fs medium>NET v2</fs> ^
 +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  51 733 873 |  176 365 880 |
 +^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] |  1 245 717 |  2 637 707 |
 +^ ::: ^ Počet [[pojmy:lemma|lemmat]] |  750 650 |  1 744 001 |
 +^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> |  1 279 |  12 738 |
 +^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] <text> |  267 026 |  1 817 088 |
 +^ ::: ^ Počet odstavců <p> |  267 026 |  1 817 088 |
 +^ ::: ^ Počet vět <s> |  2 622 636 |  8 905 016 |
 +^ Další informace ^ [[pojmy:referencni|Referenční]] |  NE |  NE |
 +^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |  NE |
 +^ ::: ^ Rok zveřejnění |  2019 |  2021 |
 +</WRAP>
  
 Korpus NET je první verzí synchronního korpusu česky psané polooficiální internetové komunikace. Korpus si neklade nároky na reprezentativnost, v současné době se skládá pouze ze dvou základních částí: diskusních fór a osobních blogů. Datové pokrytí by se však mělo s dalšími verzemi korpusu zvyšovat. Protože je cílem vzniku korpusu mapování vybraných oblastí internetové komunikace, snaží se korpus NET každou konkrétní doménu pokrýt co nejdále do minulosti a zároveň se na ni soustředit také do budoucna tak, aby další verze korpusu mohly zachycovat jejich proměnu v čase. Korpus NET je první verzí synchronního korpusu česky psané polooficiální internetové komunikace. Korpus si neklade nároky na reprezentativnost, v současné době se skládá pouze ze dvou základních částí: diskusních fór a osobních blogů. Datové pokrytí by se však mělo s dalšími verzemi korpusu zvyšovat. Protože je cílem vzniku korpusu mapování vybraných oblastí internetové komunikace, snaží se korpus NET každou konkrétní doménu pokrýt co nejdále do minulosti a zároveň se na ni soustředit také do budoucna tak, aby další verze korpusu mohly zachycovat jejich proměnu v čase.
Řádek 12: Řádek 26:
  
 Jedná se většinou o vedlejší součást zpravodajských serverů nebo internetových magazínů (webové stránky s kategorií blogů). Korpus nezachycuje firemní ani jiné formálně psané blogy. Jedná se většinou o vedlejší součást zpravodajských serverů nebo internetových magazínů (webové stránky s kategorií blogů). Korpus nezachycuje firemní ani jiné formálně psané blogy.
 +
 +===== Verze 2 (2021) =====
 +
 +Korpus NET ve verzi 2 prošel změnou zejména po obsahové stránce. Přidána byla aktualizovaná data za rok 2020, značně se také zvýšil počet stahovaných blogů a diskusních fór (aktuálně více než 120 domén), a tím také pokrytí korpusových dat.
 +
 +===== Jak citovat =====
 +
 +<WRAP round tip 70%>
 +Jeziorský, T.: //NET v1: korpus polooficiální internetové komunikace//. Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]].
 +
 +Jeziorský, T.: //NET v2: korpus polooficiální internetové komunikace//. Ústav Českého národního korpusu FF UK, Praha 2021 dostupný z: [[https://www.korpus.cz]].
 +
 +</WRAP>