Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verze | Následující verzeObě strany příští revize |
cnk:net [2019/12/20 15:56] – michalkren | cnk:net [2020/11/12 11:05] – Vložena úvodní tabulka jeziorsky |
---|
| |
====== Korpus NET ====== | ====== Korpus NET ====== |
| |
| <WRAP right 35%> |
| ^ <fs medium>Název</fs> ^^ <fs medium>NET</fs> ^ |
| ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 51 733 873 | |
| ^ ::: ^ Počet [[pojmy:word|slovních tvarů (wordů)]] | 1 245 717 | |
| ^ ::: ^ Počet [[pojmy:lemma|lemmat]] | 750 650 | |
| ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:doc|dokumentů]] <doc> | 1 279 | |
| ^ ::: ^ Počet [[pojmy:atributy_strukturni|textů]] <text> | 267 026 | |
| ^ ::: ^ Počet odstavců <p> | 267 026 | |
| ^ ::: ^ Počet vět <s> | 2 622 636 | |
| ^ Další informace ^ [[pojmy:referencni|Referenční]] | NE | |
| ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE | |
| ^ ::: ^ Rok zveřejnění | 2020 | |
| </WRAP> |
| |
Korpus NET je první verzí synchronního korpusu česky psané polooficiální internetové komunikace. Korpus si neklade nároky na reprezentativnost, v současné době se skládá pouze ze dvou základních částí: diskusních fór a osobních blogů. Datové pokrytí by se však mělo s dalšími verzemi korpusu zvyšovat. Protože je cílem vzniku korpusu mapování vybraných oblastí internetové komunikace, snaží se korpus NET každou konkrétní doménu pokrýt co nejdále do minulosti a zároveň se na ni soustředit také do budoucna tak, aby další verze korpusu mohly zachycovat jejich proměnu v čase. | Korpus NET je první verzí synchronního korpusu česky psané polooficiální internetové komunikace. Korpus si neklade nároky na reprezentativnost, v současné době se skládá pouze ze dvou základních částí: diskusních fór a osobních blogů. Datové pokrytí by se však mělo s dalšími verzemi korpusu zvyšovat. Protože je cílem vzniku korpusu mapování vybraných oblastí internetové komunikace, snaží se korpus NET každou konkrétní doménu pokrýt co nejdále do minulosti a zároveň se na ni soustředit také do budoucna tak, aby další verze korpusu mohly zachycovat jejich proměnu v čase. |