Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
seznamy:strukturni_atributy_mluvene [2022/06/08 16:17] – [Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013] jankrivan | seznamy:strukturni_atributy_mluvene [2023/02/24 17:08] – lukes |
---|
^ Dotaz ^ Vyhodnocení ^ | ^ Dotaz ^ Vyhodnocení ^ |
| ''[word=<nowiki>"</nowiki>ne<nowiki>"</nowiki>]</doc>'' | výskyty slova //ne// na konci sondy | | | ''[word=<nowiki>"</nowiki>ne<nowiki>"</nowiki>]</doc>'' | výskyty slova //ne// na konci sondy | |
| ''<sp> [word=<nowiki>"</nowiki>hm<nowiki>"</nowiki>]'' | výskyty slova //hm// na začátku promluvy | | | ''<sp> [word=<nowiki>"</nowiki>hmm<nowiki>"</nowiki>]'' | výskyty slova //hmm// na začátku promluvy | |
| |
Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity. | Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity. |
==== Strukturní atributy korpusu ORTOFON a spojeného korpusu ORAL ==== | ==== Strukturní atributy korpusu ORTOFON a spojeného korpusu ORAL ==== |
| |
Korpusy [[cnk:oral|ORAL]] a [[cnk:ortofon|ORTOFON]] obsahují následující údaje: | Korpusy [[cnk:ortofon|ORTOFON]] a [[cnk:oral|ORAL]] obsahují následující údaje: |
| |
^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ |
| unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | | | unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | |
| |
==== Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013 ==== | |
| |
Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující údaje: | ==== Strukturní atributy korpusu ORATOR ==== |
| |
| Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje: |
| |
| ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ |
| | doc | id | jednoznačný identifikátor sondy | | |
| | ::: | year | rok pořízení nahrávky | | |
| | ::: | location | místo nahrávky | obce ČR | |
| | ::: | situation | typ situace | ''{ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení}'' | |
| | ::: | framing | zaměření projevu | ''{oficiální, popularizační, politické, profesní, vědecké}'' | |
| | ::: | genre | žánr projevu | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | |
| | ::: | audience_present | přítomnost publika | ''{ano, ne}'' | |
| | ::: | intended_audience | jakému publiku je projev určen | ''{skupina, veřejnost}'' | |
| | ::: | special | speciální příznak projevu | ''{čtené, pro děti, Y}'' (''Y'' pro projevy bez příznaku) | |
| | ::: | source | zdroj | ''{vlastní sběr, volně dostupná nahrávka}'' | |
| | ::: | speakers | počet mluvčích v nahrávce | | |
| | ::: | length | délka nahrávky v minutách | | |
| | ::: | tokens | počet všech tokenů v nahrávce | | |
| | sp | id | identifikátor segmentu | unikátní číslo pro každý segment | |
| | ::: | nickname | přezdívka mluvčího | náhodně přidělená příjmení | |
| | ::: | speaker_id | číslo doplňující přezdívku mluvčího | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| |
| | ::: | gender | pohlaví | | |
| | ::: | proportion | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | |
| | ::: | soundfile | číslo a formát nahrávky | | |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | |
| doc | id | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | | |
| ::: | temp | rok nahrání sondy | např. ''2008'' | | |
| ::: | pocet | počet mluvčích v sondě | ''<číslo>'' | | |
| ::: | promluva | typ promluvy | ''N'' (neformální) | | |
| ::: | //Atributy ''vztah'' a ''situace'' jsou obsažené pouze v korpusu ORAL2013:// ||| | |
| ::: | vztah | vztah mezi mluvčími | ''{přátelskost,známost}'' | | |
| ::: | situace | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' | | |
| sp | num | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' | | |
| ::: | pohlavi | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' | | |
| ::: | vek | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | | |
| ::: | veknum | věk mluvčího (číselně) | ''<číslo>'' | | |
| ::: | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | | |
| ::: | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | | |
| ::: | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | | |
| ::: | //Atributy ''oznacenishody'' a ''prekryv'' jsou obsažené pouze v korpusu ORAL2013:// ||| | |
| ::: | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' | | |
| ::: | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | | |
| seg | - | nižší hierarchická jednotka členění mluveného textu | | |
| |
==== Strukturní atributy korpusu DIALEKT ==== | ==== Strukturní atributy korpusu DIALEKT ==== |
| ::: | noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | | ::: | noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| |
==== Strukturní atributy korpusu ORATOR ==== | |
| |
Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje: | ==== Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013 ==== |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ | Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující údaje: |
| doc | id | jednoznačný identifikátor sondy | | | |
| ::: | year | rok pořízení nahrávky | | | ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ |
| ::: | location | místo nahrávky | obce ČR | | | doc | id | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | |
| ::: | situation | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení'' | | | ::: | temp | rok nahrání sondy | např. ''2008'' | |
| ::: | framing | zaměření projevu | ''oficiální, popularizační, politické, profesní, vědecké'' | | | ::: | pocet | počet mluvčích v sondě | ''<číslo>'' | |
| ::: | genre | žánr projevu | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | | | ::: | promluva | typ promluvy | ''N'' (neformální) | |
| ::: | audience_present | přítomnost publika | ''ano, ne'' | | | ::: | //Další atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORAL2013:// ||| |
| ::: | intended_audience | jakému publiku je projev určen | ''skupina, veřejnost'' | | | ::: | vztah | vztah mezi mluvčími | ''{přátelskost,známost}'' | |
| ::: | special | speciální příznak projevu | ''čtené, pro děti, Y'' (pro projevy bez příznaku) | | | ::: | situace | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' | |
| ::: | source | zdroj | ''vlastní sběr, volně dostupná nahrávka'' | | | sp | num | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' | |
| ::: | speakers | počet mluvčích v nahrávce | | | | ::: | pohlavi | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' | |
| ::: | length | délka nahrávky v minutách | | | | ::: | vek | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | |
| ::: | tokens | počet všech tokenů v nahrávce | | | | ::: | veknum | věk mluvčího (číselně) | ''<číslo>'' | |
| sp | id | identifikátor segmentu | unikátní číslo pro každý segment | | | ::: | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | |
| ::: | nickname | přezdívka mluvčího | náhodně přidělená příjmení | | | ::: | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | |
| ::: | speaker_id | číslo doplňující přezdívku mluvčího | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| | | ::: | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | |
| ::: | gender | pohlaví | | | | ::: | //Další atributy pod strukturou ''sp'' jsou obsažené pouze v korpusu ORAL2013:// ||| |
| ::: | proportion | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | | | ::: | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' | |
| ::: | soundfile | číslo a formát nahrávky | | | | ::: | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | |
| | seg | - | nižší hierarchická jednotka členění mluveného textu | |
| |
Pozn. Některé atributy mluvených korpusů připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). | Pozn. Některé atributy mluvených korpusů připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). |
| |
| ==== Strukturní atributy korpusu Jazyky v migraci ==== |
| |
| Korpus [[cnk:jazyky-v-migraci|Jazyky v migraci]] obsahuje následující údaje: |
| |
| |
| |