Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:ortofon [2022/06/02 12:26] – Jan Křivan | cnk:ortofon [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy Václav Cvrček (admin) |
---|
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 1 014 786 | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 1 014 786 | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 65 294 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 65 294 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] | 332 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 332 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 172 736 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 172 736 | |
^ Počet unikátních (různých) mluvčích | 624 | | ^ Počet unikátních (různých) mluvčích | 624 | |
^ Délka nahrávek [hh:mm:ss.ms] | 102:41:14.247 | | ^ Délka nahrávek [hh:mm:ss.ms] | 102:41:14.247 | |
===== Strukturní atributy korpusu ORTOFON ===== | ===== Strukturní atributy korpusu ORTOFON ===== |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | Struktury a strukturní atributu korpusu ORTOFON jsou popsány na [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zvláštní stránce]]. |
| doc | id | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | | |
| | year | rok nahrání sondy | např. ''2008'' | | |
| | month | měsíc nahrání sondy | např. ''7'' | | |
| | location | místo nahrání sondy | např. ''Liberec'' | | |
| | situation | typ mluvní situace sondy | např. ''hovor doma'' | | |
| | speakers | počet mluvčích v nahrávce | ''<číslo>'' | | |
| | relationship | vztah mezi mluvčími v nahrávce | např. ''partnerský'' | | |
| | genders | pohlaví mluvčích v nahrávce | ''{jen ženy, jen muži, smíšené}'' | | |
| | generations | počet generací mluvčích v nahrávce | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd. | | |
| | length | délka nahrávky | např. ''10:47'' | | |
| | tokens | počet tokenův rámci sondy | např. ''2134'' | | |
| sp | id | identifikátor segmentu (struktury sp) | např. ''3784'' | | |
| | nickname | označení mluvčího | např. ''Světlana R.'' | | |
| | speaker_id | identifikátor mluvčího | např. ''19'' | | |
| | gender | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' | | |
| |
| | age_binary | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | | |
| | age | věk mluvčího (číselně) | ''<číslo>'' | | |
| | edu_binary | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | | |
| | edu_level | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | | |
| | edu_field | obor vzdělání | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu | | |
| | occupation | zaměstnání | např. ''sociální pracovník'' | | |
| | occupation_category | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] | | |
| | reg_childhood | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | | |
| | loc_childhood | místo, kde mluvčí žil do 15 let | např. ''Praha'' | |
| | locsize_childhood | velikost sídla, kde mluvčí žil do 15 let věku | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | |
| | reg_longest | nářeční oblast, v níž mluvčí žil nejdéle | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | | |
| | locsize_longest | velikost sídla, kde mluvčí žil nejdelší dobu | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | |
| | reg_current | nářeční oblast, v níž mluvčí žije v současné době | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | | |
| | locsize_current | velikost sídla, kde mluvčí žije v současné době | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | |
| | proportion | podíl segmentu na všech segmentech v sondě | např. ''59 %'' | |
| | soundfile | číslo a formát nahrávky | např. ''5/3/ef2e315f.mp3'' | |
| |
| **para** | type | šeptem | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' | | |
| **pw** | - | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - | | |
| **overlap** | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - | | |
| **unclear** | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | | |
| |
| |
===== Rozdíly mezi korpusem ORAL a ORTOFON ===== | ===== Rozdíly mezi korpusem ORAL a ORTOFON ===== |
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 2 101 214 | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 2 101 214 | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 101 502 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 101 502 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] | 615 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 615 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 360 248 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 360 248 | |
^ Počet unikátních (různých) mluvčích | 960 | | ^ Počet unikátních (různých) mluvčích | 960 | |
^ Délka nahrávek [hh:mm:ss.ms] | 210:09:35.155 | | ^ Délka nahrávek [hh:mm:ss.ms] | 210:09:35.155 | |