AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:online:gen2 [2022/12/22 11:54] – [Jak citovat korpusy ONLINE] Václav Cvrčekcnk:online:gen2 [2022/12/22 16:09] (aktuální) – [duplicate] Václav Cvrček
Řádek 1: Řádek 1:
 ~~NOTOC~~ ~~NOTOC~~
-====== Korpusy ONLINE2 ======+====== ONLINE2 (2. generace) ======
  
-Korpusy **ONLINE2_NOW** a **ONLINE2_ARCHIVE** dohromady tvoří monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku v období od dubna 2021 do současnosti. Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost **[[https://monitora.cz|Monitora]]**.+Korpusy **ONLINE2_NOW** a **ONLINE2_ARCHIVE** dohromady tvoří monitorovací korpus ([[cnk:online|ONLINE]]), který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku v období od dubna 2021 do současnosti (starší období je pokryto [[cnk:online:gen1|první generaci korpusu]]). Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost **[[https://monitora.cz|Monitora]]**.
  
 Obě části korpusu se liší svým rozsahem a periodicitou aktualizace: Obě části korpusu se liší svým rozsahem a periodicitou aktualizace:
Řádek 9: Řádek 9:
  
 <WRAP right 35%> <WRAP right 35%>
-^ <fs medium>Název</fs> ^^ <fs medium>ONLINE</fs> ^ +^ <fs medium>Název</fs> ^^ <fs medium>ONLINE2</fs> ^ 
-^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 866 mil. (v době zveřejnění) |   +^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] |  866 mil. (v době zveřejnění) |   
-^ ::: ^ Počet vět <s> |  52,2 mil. (v době zveřejnění) |+^ ::: ^ Počet vět <s> |   52,2 mil. (v době zveřejnění) |
 ^ Další informace ^ [[pojmy:referencni|Referenční]] |  NE |   ^ Další informace ^ [[pojmy:referencni|Referenční]] |  NE |  
 ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |   ^ ::: ^ [[pojmy:reprezentativnost|Reprezentativní]] |  NE |  
 ^ ::: ^ Období |  od dubna 2021 | ^ ::: ^ Období |  od dubna 2021 |
-^ ::: ^ Rok zveřejnění |  2020 |+^ ::: ^ Rok zveřejnění |  2022 |
 </WRAP> </WRAP>
  
Řádek 22: Řádek 22:
 ==== Aktualizace ==== ==== Aktualizace ====
  
-Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodináých, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. +Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodinách, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. 
  
 Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum). Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum).
Řádek 63: Řádek 63:
  
  
 +==== duplicate ====
  
 +Atribut ''text.duplicate'' (dostupný pouze v korpusech 2. generace) udává, zda je text duplikátem jiného textu v korpusu. Taková situace se u dat z online médií může stát poměrně často v důsledku přejímání zpráv mezi tiskovými agenturami a jednotlivými tituly/portály. Pokud se chceme vyhnout zkreslení, které je dáno takovýmito textovými duplicitami, můžeme použít dotaz s podmínkou [[pojmy:within|within]] (např. ''%%[word="kolo"] within <text duplicate!="no" />%%''), která zaručí, že se ve výsledku objeví duplicitní texty pouze v jednom excempláři. 
  
 ===== Anotace ===== ===== Anotace =====