Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:online:gen2 [2022/12/22 11:56] – vaclavcvrcek | cnk:online:gen2 [2022/12/22 16:09] (aktuální) – [duplicate] vaclavcvrcek |
---|
~~NOTOC~~ | ~~NOTOC~~ |
====== Korpusy ONLINE2 ====== | ====== ONLINE2 (2. generace) ====== |
| |
Korpusy **ONLINE2_NOW** a **ONLINE2_ARCHIVE** dohromady tvoří monitorovací korpus ([[cnk:online|ONLINE]]), který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku v období od dubna 2021 do současnosti (starší období je pokryto [[cnk:online:gen1|první generaci korpusu]]). Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost **[[https://monitora.cz|Monitora]]**. | Korpusy **ONLINE2_NOW** a **ONLINE2_ARCHIVE** dohromady tvoří monitorovací korpus ([[cnk:online|ONLINE]]), který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku v období od dubna 2021 do současnosti (starší období je pokryto [[cnk:online:gen1|první generaci korpusu]]). Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost **[[https://monitora.cz|Monitora]]**. |
| |
<WRAP right 35%> | <WRAP right 35%> |
^ <fs medium>Název</fs> ^^ <fs medium>ONLINE</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>ONLINE2</fs> ^ |
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 866 mil. (v době zveřejnění) | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 866 mil. (v době zveřejnění) | |
^ ::: ^ Počet vět <s> | 52,2 mil. (v době zveřejnění) | | ^ ::: ^ Počet vět <s> | 52,2 mil. (v době zveřejnění) | |
^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE | | ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] | NE | |
^ ::: ^ Období | od dubna 2021 | | ^ ::: ^ Období | od dubna 2021 | |
^ ::: ^ Rok zveřejnění | 2020 | | ^ ::: ^ Rok zveřejnění | 2022 | |
</WRAP> | </WRAP> |
| |
==== Aktualizace ==== | ==== Aktualizace ==== |
| |
Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodináých, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. | Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodinách, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. |
| |
Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum). | Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum). |
| |
| |
| ==== duplicate ==== |
| |
| Atribut ''text.duplicate'' (dostupný pouze v korpusech 2. generace) udává, zda je text duplikátem jiného textu v korpusu. Taková situace se u dat z online médií může stát poměrně často v důsledku přejímání zpráv mezi tiskovými agenturami a jednotlivými tituly/portály. Pokud se chceme vyhnout zkreslení, které je dáno takovýmito textovými duplicitami, můžeme použít dotaz s podmínkou [[pojmy:within|within]] (např. ''%%[word="kolo"] within <text duplicate!="no" />%%''), která zaručí, že se ve výsledku objeví duplicitní texty pouze v jednom excempláři. |
| |
===== Anotace ===== | ===== Anotace ===== |