AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:online:gen2 [2022/12/22 14:16] – [ONLINE2 (2. generace)] vaclavcvrcekcnk:online:gen2 [2022/12/22 15:30] – [media_type] vaclavcvrcek
Řádek 22: Řádek 22:
 ==== Aktualizace ==== ==== Aktualizace ====
  
-Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodináých, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. +Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodinách, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. 
  
 Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum). Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum).
Řádek 63: Řádek 63:
  
  
 +==== duplicate ====
  
 +Atribut ''text.duplicate'' (dostupný pouze v 2. generaci) udává, zda je text duplikátem jiného textu v korpusu. Taková situace se u dat tohoto typu stává poměrně často v důsledku přejímání zpráv mezi tiskovými agenturami a jednotlivými tituly. Pokud se chceme vyhnout zkreslení, které je dáno takovýmito textovými duplicitami, můžeme použít dotaz s podmínkou [[pojmy:within|within]], která zaručí, že se ve výsledku objeví duplicitní texty jenom v jednou. 
  
 ===== Anotace ===== ===== Anotace =====