Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revision | Last revisionBoth sides next revision |
en:cnk:online:gen2 [2022/12/22 15:29] – [media_type] vaclavcvrcek | en:cnk:online:gen2 [2022/12/22 16:13] – [duplicate] vaclavcvrcek |
---|
==== duplicate ==== | ==== duplicate ==== |
| |
Atribut ''text.duplicate'' (dostupný pouze v 2. generaci) udává, zda je text duplikátem jiného textu v korpusu. Taková situace se u dat tohoto typu stává poměrně často v důsledku přejímání zpráv mezi tiskovými agenturami a jednotlivými tituly. Pokud se chceme vyhnout zkreslení, které je dáno takovýmito textovými duplicitami, můžeme použít dotaz s podmínkou [[pojmy:within|within]], která zaručí, že se ve výsledku objeví duplicitní texty jenom v jednou. | The ''text.duplicate'' attribute (available only in Generation 2) indicates whether a text is a duplicate of another text in the corpus. This situation can happen quite often with online media as a result of adopting news between news agencies and individual portals. If we want to avoid the bias introduced by such text duplicates, we can use a ''within'' condition (e.g., ''%%[word="round"] within <text duplicate!="no" />%%''), which causes that duplicate texts appear in the result only once. |
| |
| |