AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:oral [2019/08/21 11:13] – [Úprava sociolingvistických údajů] Michal Škrabalcnk:oral [2023/11/20 12:26] (aktuální) Martina Waclawičová
Řádek 8: Řádek 8:
 ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a komentářů |  5 368 392 | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a komentářů |  5 368 392 |
 ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  193 497 |   ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  193 497 |  
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  1 546 |+^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] |  1 546 |
 ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|replik]] |  696 918 | ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|replik]] |  696 918 |
-^ Počet unikátních (různých) mluvčích |  1 297 |  +^ Počet mluvčích |  2 807 |  
 ^ Délka nahrávek části ORAL2013 + ORAL-Z [hh:mm:ss.ms] |  354:44:36.722 |   ^ Délka nahrávek části ORAL2013 + ORAL-Z [hh:mm:ss.ms] |  354:44:36.722 |  
 </WRAP> </WRAP>
Řádek 31: Řádek 31:
 ==== Úprava sociolingvistických údajů ==== ==== Úprava sociolingvistických údajů ====
  
-  * **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk:dialekt#mapa_narecnich_oblasti_cr|mapa nářečních oblastí]])+  * **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk:dialekt:mapa|mapa nářečních oblastí]])
   * identifikace **shodných mluvčích**: v rámci nahrávek pořízených během let 2002–2007 (korpusy ORAL2006, ORAL2008 a ORAL-Z) byli zpětně propojeni shodní mluvčí, v nahrávkách z let 2008–2011 (korpus ORAL2013) už tato shoda označena byla; shodní mluvčí mezi oběma časovými obdobími označováni nebyli   * identifikace **shodných mluvčích**: v rámci nahrávek pořízených během let 2002–2007 (korpusy ORAL2006, ORAL2008 a ORAL-Z) byli zpětně propojeni shodní mluvčí, v nahrávkách z let 2008–2011 (korpus ORAL2013) už tato shoda označena byla; shodní mluvčí mezi oběma časovými obdobími označováni nebyli
   * doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.))    * doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.))