AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:ortofon [2022/06/02 12:26] Jan Křivancnk:ortofon [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy Václav Cvrček (admin)
Řádek 14: Řádek 14:
 ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů |  1 014 786 | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů |  1 014 786 |
 ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 294 |   ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 294 |  
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  332 | +^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] |  332 | 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  172 736 |+^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] |  172 736 |
 ^ Počet unikátních (různých) mluvčích |  624 |   ^ Počet unikátních (různých) mluvčích |  624 |  
 ^ Délka nahrávek [hh:mm:ss.ms] |  102:41:14.247 |   ^ Délka nahrávek [hh:mm:ss.ms] |  102:41:14.247 |  
Řádek 41: Řádek 41:
 ===== Strukturní atributy korpusu ORTOFON ===== ===== Strukturní atributy korpusu ORTOFON =====
  
-^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ +Struktury strukturní atributu korpusu ORTOFON jsou popsány na [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zvláštní stránce]].
-| doc | id            | jednoznačný identifikátor sondy | ''<řetězec čísel velkých písmen>''+
-|     | year          | rok nahrání sondy | např. ''2008''+
-|     | month          | měsíc nahrání sondy | např. ''7''+
-|     | location          | místo nahrání sondy | např. ''Liberec''+
-|     | situation      | typ mluvní situace sondy | např. ''hovor doma''+
-|     | speakers      | počet mluvčích v nahrávce | ''<číslo>''+
-|     | relationship      | vztah mezi mluvčími v nahrávce | např. ''partnerský''+
-|     | genders      | pohlaví mluvčích v nahrávce | ''{jen ženy, jen muži, smíšené}'' +
-|     | generations   | počet generací mluvčích v nahrávce  | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd.  | +
-|     | length   | délka nahrávky  | např. ''10:47''+
-|     | tokens   | počet tokenův rámci sondy | např. ''2134''+
-| sp  | id       | identifikátor segmentu (struktury sp)  | např. ''3784''+
-|     | nickname    | označení mluvčího | např. ''Světlana R.''+
-|     | speaker_id      | identifikátor mluvčího | např. ''19''+
-|     | gender    | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y''+
- +
-|     | age_binary    | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y''+
-|     | age        | věk mluvčího (číselně) | ''<číslo>''+
-|     | edu_binary      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y''+
-|     | edu_level   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y''+
-|             | edu_field          | obor vzdělání  | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu +
-|             | occupation         | zaměstnání | např. ''sociální pracovník''   | +
-|             | occupation_category  | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] |  +
-|     | reg_childhood        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y''+
-|             | loc_childhood      | místo, kde mluvčí žil do 15 let  | např''Praha'' +
-|     | locsize_childhood  | velikost sídla, kde mluvčí žil do 15 let věku  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' +
-|             | reg_longest        | nářeční oblast, v níž mluvčí žil nejdéle  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' +
-|             | locsize_longest    | velikost sídla, kde mluvčí žil nejdelší dobu  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' +
-|             | reg_current        | nářeční oblast, v níž mluvčí žije v současné době  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' +
-|             | locsize_current    | velikost sídla, kde mluvčí žije v současné době  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' +
-|             | proportion          | podíl segmentu na všech segmentech v sondě  |  např. ''59 %'' +
-|             | soundfile          | číslo a formát nahrávky  |  např. ''5/3/ef2e315f.mp3'' +
- +
-| **para**    | type               | šeptem  | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem  | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' +
-| **pw**      | -                  | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - |  +
-| **overlap** | -                  | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - |  +
-| **unclear** | -                  | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - |  +
- +
  
 ===== Rozdíly mezi korpusem ORAL a ORTOFON ===== ===== Rozdíly mezi korpusem ORAL a ORTOFON =====
Řádek 98: Řádek 59:
 ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů |  2 101 214 | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů |  2 101 214 |
 ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  101 502 |   ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  101 502 |  
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  615 | +^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] |  615 | 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  360 248 |+^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] |  360 248 |
 ^ Počet unikátních (různých) mluvčích |  960 |   ^ Počet unikátních (různých) mluvčích |  960 |  
 ^ Délka nahrávek [hh:mm:ss.ms] |  210:09:35.155 |   ^ Délka nahrávek [hh:mm:ss.ms] |  210:09:35.155 |