Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:ortofon [2022/06/02 11:59] – jankrivan | cnk:ortofon [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy cvrcek |
---|
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 1 014 786 | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 1 014 786 | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 65 294 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 65 294 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] | 332 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 332 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 172 736 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 172 736 | |
^ Počet unikátních (různých) mluvčích | 624 | | ^ Počet unikátních (různých) mluvčích | 624 | |
^ Délka nahrávek [hh:mm:ss.ms] | 102:41:14.247 | | ^ Délka nahrávek [hh:mm:ss.ms] | 102:41:14.247 | |
===== Strukturní atributy korpusu ORTOFON ===== | ===== Strukturní atributy korpusu ORTOFON ===== |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | Struktury a strukturní atributu korpusu ORTOFON jsou popsány na [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zvláštní stránce]]. |
| doc | id | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | | |
| | year | rok nahrání sondy | např. ''2008'' | | |
| | month | měsíc nahrání sondy | např. ''7'' | | |
| | location | místo nahrání sondy | např. ''Liberec'' | | |
| | situation | typ mluvní situace sondy | např. ''hovor doma'' | | |
| | speakers | počet mluvčích v sondě | ''<číslo>'' | | |
| | relationship | vztah mezi mlučcími v sondě | např. ''partnerský'' | | |
| | genders |''{jen ženy, jen muži, smíšené}'' | | |
| | generations | počet generací mluvčích v nahrávce | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd. | | |
| | length | délka nahrávky | např. ''10:47'' | | |
| | tokens | počet tokenův rámci sondy | např. ''2134'' | | |
| |
| sp | num | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' | | |
| | pohlavi | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' | | |
| | vek | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | | |
| | veknum | věk mluvčího (číselně) | ''<číslo>'' | | |
| | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | | |
| | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | | |
| | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | | |
| |
^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | |
| **sp** | locsize_childhood | město nad 100 tisíc | velikost sídla, kde mluvčí žil do 15 let věku | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | |
| | locsize_longest | město nad 100 tisíc | velikost sídla, kde mluvčí žil nejdelší dobu | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | |
| | locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | |
| | soundfile | 5/3/ef2e315f.mp3 | číslo a formát nahrávky | | |
| | id | 3784 | identifikátor segmentu (struktury sp) | | |
| | edu_field | chemické obory | obor vzdělání | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu | | |
| | occupation | sociální pracovník | | |
| | occupation_category | jiný odborný pracovník | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] | | |
| | loc_childhood | Praha | místo, kde mluvčí žil do 15 let | | |
| | reg_longest | severovýchodočeská | nářeční oblast, v níž mluvčí žil nejdéle | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | | |
| **para** | type | šeptem | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' | | |
| **pw** | - | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - | | |
| **overlap** | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - | | |
| **unclear** | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | | |
| |
| |
===== Rozdíly mezi korpusem ORAL a ORTOFON ===== | ===== Rozdíly mezi korpusem ORAL a ORTOFON ===== |
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 2 101 214 | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 2 101 214 | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 101 502 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 101 502 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] | 615 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 615 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 360 248 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 360 248 | |
^ Počet unikátních (různých) mluvčích | 960 | | ^ Počet unikátních (různých) mluvčích | 960 | |
^ Délka nahrávek [hh:mm:ss.ms] | 210:09:35.155 | | ^ Délka nahrávek [hh:mm:ss.ms] | 210:09:35.155 | |