| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| cnk:online:gen2 [2022/12/22 12:26] – vaclavcvrcek | cnk:online:gen2 [2026/01/22 16:05] (aktuální) – [Anotace] krivan |
|---|
| |
| <WRAP right 35%> | <WRAP right 35%> |
| ^ <fs medium>Název</fs> ^^ <fs medium>ONLINE</fs> ^ | ^ <fs medium>Název</fs> ^^ <fs medium>ONLINE2</fs> ^ |
| ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 866 mil. (v době zveřejnění) | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|pozic (tokenů)]] | 866 mil. (v době zveřejnění) | |
| ^ ::: ^ Počet vět <s> | 52,2 mil. (v době zveřejnění) | | ^ ::: ^ Počet vět <s> | 52,2 mil. (v době zveřejnění) | |
| ==== Aktualizace ==== | ==== Aktualizace ==== |
| |
| Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodináých, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. | Klíčovou vlastností korpusů ONLINE je to, že jsou pravidelně aktualizovány. Aktualizace korpusu ONLINE2_NOW probíhá každý den v ranních hodinách, kdy jsou zveřejněna data předchozího dne. Objem aktualizace kolísá podle množství postahovaného textového materiálu od 0,8 do 1,5 milionů tokenů. Při změně měsíce (první den v měsíci) je nejstarší měsíc korpusu ONLINE2_NOW připojen ke korpusu ONLINE2_ARCHIVE. |
| |
| Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum). | Aktualizace korpusu ONLINE2_ARCHIVE probíhá vždy první den v měsíci, kdy ke korpusu přibyde měsíc, který byl odloučen z korpusu ONLINE2_NOW (měsíc předcházející o půl roku aktuální datum). |
| |
| |
| | ==== duplicate ==== |
| |
| | Atribut ''text.duplicate'' (dostupný pouze v korpusech 2. generace) udává, zda je text duplikátem jiného textu v korpusu. Taková situace se u dat z online médií může stát poměrně často v důsledku přejímání zpráv mezi tiskovými agenturami a jednotlivými tituly/portály. Pokud se chceme vyhnout zkreslení, které je dáno takovýmito textovými duplicitami, můžeme použít dotaz s podmínkou [[pojmy:within|within]] (např. ''%%[word="kolo"] within <text duplicate!="no" />%%''), která zaručí, že se ve výsledku objeví duplicitní texty pouze v jednom excempláři. |
| |
| ===== Anotace ===== | ===== Anotace ===== |
| |
| Korpus je značkován standardními nástroji pro [[pojmy:morfologicka_analyza|morfologickou analýzu]] a [[pojmy:lemma|lemmatizaci]] korpusů řady SYN. Výsledky analýzy by měly být srovnatelné s korpusem [[cnk:syn2015|SYN2015]] (viz [[seznamy:tagy|popis morfologických značek]]). | Morfologické značkování, lemmatizace a tokenizace korpusu probíhá plně automaticky podle [[cnk:anotacni_standard_cnk|anotačního standardu ČNK]]. Tokenům jsou přiřazeny [[pojmy:atributy_pozicni|poziční atributy]]: [[pojmy:lemma|lemma]] a sublemma, [[pojmy:tag|tag]], [[pojmy:verbtag|verbtag]], pos a case. |
| ====== Jak citovat korpusy ONLINE ====== | ====== Jak citovat korpusy ONLINE ====== |
| |