AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:online:gen2 [2022/12/22 14:16] – [ONLINE2 (2. generace)] vaclavcvrcekcnk:online:gen2 [2022/12/22 16:09] (aktuální) – [duplicate] vaclavcvrcek
Řádek 22: Řádek 22:
 ==== Aktualizace ==== ==== Aktualizace ====
  
-Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodináých, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. +Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodinách, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. 
  
 Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum). Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum).
Řádek 63: Řádek 63:
  
  
 +==== duplicate ====
  
 +Atribut ''text.duplicate'' (dostupný pouze v korpusech 2. generace) udává, zda je text duplikátem jiného textu v korpusu. Taková situace se u dat z online médií může stát poměrně často v důsledku přejímání zpráv mezi tiskovými agenturami a jednotlivými tituly/portály. Pokud se chceme vyhnout zkreslení, které je dáno takovýmito textovými duplicitami, můžeme použít dotaz s podmínkou [[pojmy:within|within]] (např. ''%%[word="kolo"] within <text duplicate!="no" />%%''), která zaručí, že se ve výsledku objeví duplicitní texty pouze v jednom excempláři. 
  
 ===== Anotace ===== ===== Anotace =====