AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
en:cnk:net [2019/12/20 14:31] – created michalkrenen:cnk:net [2021/02/15 09:58] (current) – Fix publication year of NET v1 jeziorsky
Line 3: Line 3:
 ====== NET Corpus ====== ====== NET Corpus ======
  
-Korpus NET je první verzí synchronního korpusu česky psané polooficiální internetové komunikace. V současné době se skládá ze dvou základních částí, diskusních fór a osobních blogů; datové pokrytí by se však mělo do budoucna zvyšovat. Protože je cílem vzniku korpusu mapování vybraných oblastí internetové komunikace, snaží se korpus NET každou konkrétní doménu pokrýt co nejdále do minulosti a zároveň se na ni soustředit také do budoucna tak, aby další verze korpusu mohly zachycovat jejich proměnu v čase.+<WRAP right 45%> 
 +^ <fs medium>Name</fs> ^^ <fs medium>NET</fs> ^ <fs medium>NET v2</fs>
 +^ [[en:pojmy:atributy_pozicni|Positions]] ^ Number of [[en:pojmy:token|positions (tokens)]] |  51 733 873 |  176 365 880 | 
 +^ ::: ^ Number of [[en:pojmy:word|word forms]] |  1 245 717 |  2 637 707 | 
 +^ ::: ^ Number of [[en:pojmy:lemma|lemmas]] |  750 650 |  1 744 001 | 
 +^ [[en:pojmy:atributy_strukturni|Structures]] ^ Number of [[en:pojmy:doc|documents]] <doc> |  1 279 |  12 738 | 
 +^ ::: ^ Number of [[en:pojmy:atributy_strukturni|texts]] <text> |  267 026 |  1 817 088 | 
 +^ ::: ^ Number of paragraphs <p> |  267 026 |  1 817 088 | 
 +^ ::: ^ Number of sentences <s> |  2 622 636 |  8 905 016 | 
 +^ Further Information ^ [[en:pojmy:referencni|Reference]] |  NO |  NO | 
 +^ ::: ^ [[en:pojmy:reprezentativnost|Representative]] |  NO |  NO | 
 +^ ::: ^ Year of publication |  2019 |  2021 | 
 +</WRAP>
  
-==== Diskusní fóra ====+NET corpus is the first version of a synchronic corpus of Czech semi-official internet communication. The corpus is not representative in any way and it is currently composed of two parts: discussion forums and blogs. Data coverage shall increase in the future versions of NET. As one of the aims of NET is to map the selected areas of internet communication, NET tries to capture the selected domain from its beginning, and at the same time, it will concentrate also on its future content that will be included in future versions of the corpus, so that NET could capture its change over time.
  
-Tato část korpusu se zaměřuje výhradně diskusní fóra vytvořená s použitím technologie phpBB; její součástí tedy nejsou komentáře či diskuse pod články ani data ze sociálních sítí. Výběr vzorku diskusních fór zachycených korpusem NET byl náhodný, velikost vzorku se bude výhledově zvětšovat.+==== Discussion forums ====
  
-==== Osobní blogy ====+This part of the corpus is concentrated on discussion forums run on the phpBB platform. For the time being, there are neither commentaries / discussions on the published news articles nor social network data included in NET. The sampling of the phpBB platform has been random, the sample size is planned to be increased in the future.
  
-Jedná se většinou o vedlejší součást zpravodajských serverů nebo internetových magazínů (webové stránky s kategorií blogů), korpus tedy nezachycuje firemní ani jiné formálně psané blogyVýběr tvoří nejpopulárnější nejfrekventovanější zástupci webových stránek.+==== Personal blogs ==== 
 + 
 +Personal blogs have been downloaded mostly from news servers and web magazines where they often form a supplementary part of the main web. There are no corporate or other formal blogs included in the NET corpus. 
 + 
 +===== Version 2 (2021===== 
 + 
 +In 2021version 2 of the NET corpus was published. The covered domains have been updated with fresh data from 2020, and at the same time, the number of blogs and forums has been significantly increased (currently more than 120 domains). This has also increased the overall size and coverage of the NET corpus. 
 + 
 +===== How to cite ===== 
 + 
 +<WRAP round tip 70%> 
 +Jeziorský, T.: //NET v1: korpus polooficiální internetové komunikace//Ústav Českého národního korpusu FF UK, Praha 2019 dostupný z: [[https://www.korpus.cz]]. 
 + 
 +Jeziorský, T.: //NET v2: korpus polooficiální internetové komunikace//. Ústav Českého národního korpusu FF UK, Praha 2021 dostupný z: [[https://www.korpus.cz]]. 
 + 
 +</WRAP>