Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:ortofon [2024/06/21 07:29] – [Jak citovat] michalkren | cnk:ortofon [2025/01/17 22:56] (aktuální) – [ORTOFON v3 (2024)] michalkren |
---|
<WRAP 45%> | <WRAP 45%> |
^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v1</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v2</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v3</fs> | | ^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v1</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v2</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v3</fs> | |
^ Počet [[pojmy:token|pozic (tokenů)]] | 1 236 508 | 2 560 590 | 2 976 740 | | ^ Počet [[pojmy:token|pozic (tokenů)]] | 1 236 508 | 2 560 590 | 2 976 742 | |
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 1 014 786 | 2 101 214 | 2 445 792 | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 1 014 786 | 2 101 214 | 2 445 793 | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 65 294 | 101 500 | 110 127 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 65 294 | 101 500 | 110 127 | |
^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 332 | 615 | 697 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 332 | 615 | 697 | |
===== ORTOFON v3 (2024) ===== | ===== ORTOFON v3 (2024) ===== |
| |
V roce 2024 byla zveřejněna 3. verze korpusu ORTOFON. Obsahuje 110 127 slov a na 697 nahrávkách, pořízených v letech 2012–2020 a čítajících 243 hodin, zachycuje 1 121 mluvčích pocházejících z celé České republiky. Zahrnuje v sobě data i z obou předchozích verzí korpusu. V korpusovém rozhraní KonText je zpřístupněn přepis na ortografické a fonetické rovině i odpovídající zvukový záznam. Pro tuto verzi byla odstraněna řada nekonzistencí v traskripci a provedeno množství oprav. | V roce 2024 byla zveřejněna 3. verze korpusu ORTOFON. Obsahuje 2 445 793 slov a na 697 nahrávkách, pořízených v letech 2012–2020 a čítajících 243 hodin, zachycuje 1 121 mluvčích pocházejících z celé České republiky. Zahrnuje v sobě data i z obou předchozích verzí korpusu. Stejně jako druhá verze není ani tato vyvážená. V korpusovém rozhraní KonText je zpřístupněn přepis na ortografické a fonetické rovině i odpovídající zvukový záznam. Pro tuto verzi byla odstraněna řada nekonzistencí v traskripci a provedeno množství oprav. |
| |
Korpus ORTOFON v3 je automaticky **anotován podle standardu SYN2020**, více viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|výš]]. | Korpus ORTOFON v3 je automaticky **anotován podle standardu SYN2020**, více viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|výš]]. |