AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:strukturni_atributy_mluvene [2022/06/07 20:53] Jan Křivanseznamy:strukturni_atributy_mluvene [2023/02/26 21:36] (aktuální) Jan Křivan
Řádek 3: Řádek 3:
 ==== Struktury korpusů mluvené češtiny ==== ==== Struktury korpusů mluvené češtiny ====
  
-V korpusech **[[pojmy:mluveny|mluvené]] češtiny** se používají následující strukturní jednotky:+V korpusech **[[pojmy:mluveny|mluvené]] češtiny** se používají následující strukturní hierarchické jednotky:
   * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor)   * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor)
-  * **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata+  * **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata (korpusy ORAL obsahují i nižší jednotku **seg**)
  
 Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat. Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.
Řádek 11: Řádek 11:
 ^ Dotaz ^ Vyhodnocení ^ ^ Dotaz ^ Vyhodnocení ^
 | ''[word=<nowiki>"</nowiki>ne<nowiki>"</nowiki>]</doc>'' | výskyty slova //ne// na konci sondy | | ''[word=<nowiki>"</nowiki>ne<nowiki>"</nowiki>]</doc>'' | výskyty slova //ne// na konci sondy |
-| ''<sp> [word=<nowiki>"</nowiki>hm<nowiki>"</nowiki>]'' | výskyty slova //hm// na začátku promluvy |+| ''<sp> [word=<nowiki>"</nowiki>hmm<nowiki>"</nowiki>]'' | výskyty slova //hmm// na začátku promluvy |
  
 +Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou u některých korpusů použity.
  
-==== Atributy korpusu ORTOFON a spojeného korpusu ORAL ==== 
  
-Korpusy [[cnk:oral|ORAL]] a [[cnk:ortofon|ORTOFON]] obsahují následující údaje:+==== Strukturní atributy korpusu ORTOFON a spojeného korpusu ORAL ==== 
 + 
 +Korpusy [[cnk:ortofon|ORTOFON]] a [[cnk:oral|ORAL]] obsahují následující údaje:
  
 ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^
Řádek 32: Řádek 34:
 | ::: | oral          | 2006         | označuje korpus, z něhož nahrávka pochází | ''{2006, 2008, 2013, Z}''| | ::: | oral          | 2006         | označuje korpus, z něhož nahrávka pochází | ''{2006, 2008, 2013, Z}''|
 | ::: | number        | 2            | počet mluvčích v nahrávce| | ::: | number        | 2            | počet mluvčích v nahrávce|
-| ::: | //Atributy ''generations'' a ''genders'' jsou obsažené pouze v korpusu ORTOFON:// ||||+| ::: | //Tyto atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORTOFON:// ||||
 | ::: | generations        | 1  | počet generací mluvčích v nahrávce  | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd.  | | ::: | generations        | 1  | počet generací mluvčích v nahrávce  | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd.  |
 | ::: | genders            | smíšené  | |''{jen ženy, jen muži, smíšené}''  | | ::: | genders            | smíšené  | |''{jen ženy, jen muži, smíšené}''  |
Řádek 58: Řádek 60:
 | ::: | loc_childhood      | Praha  | místo, kde mluvčí žil do 15 let  | | ::: | loc_childhood      | Praha  | místo, kde mluvčí žil do 15 let  |
 | ::: | reg_longest        | severovýchodočeská  | nářeční oblast, v níž mluvčí žil nejdéle  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | | ::: | reg_longest        | severovýchodočeská  | nářeční oblast, v níž mluvčí žil nejdéle  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' |
-| //Nižší hierarchická jednotka - obsažená pouze v korpusu ORAL:// |||||+| //Nižší hierarchická struktura - obsažená pouze v korpusu ORAL:// |||||
 | seg | - | - | nižší technická jednotka členění mluveného textu | | seg | - | - | nižší technická jednotka členění mluveného textu |
 | //Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:// ||||| | //Další struktury a atributy jsou obsažené pouze v korpusu ORTOFON:// |||||
Řádek 66: Řádek 68:
 | unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - |  | unclear | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | 
  
-==== Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013 ==== 
  
-Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující strukturní atributy:+==== Strukturní atributy korpusu ORATOR ==== 
 + 
 +Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje: 
 + 
 +^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ 
 +| doc | id                | jednoznačný identifikátor sondy | | 
 +| ::: | year              | rok pořízení nahrávky           | | 
 +| ::: | location          | místo nahrávky                  | obce ČR | 
 +| ::: | situation         | typ situace | ''{ceremoniálinstruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení}''
 +| ::: | framing           | zaměření projevu                | ''{oficiální, popularizační, politické, profesní, vědecké}''
 +| ::: | genre             | žánr projevu                    | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | 
 +::: | audience_present  | přítomnost publika              | ''{ano, ne}''
 +| ::: | intended_audience | jakému publiku je projev určen  | ''{skupina, veřejnost}''
 +| ::: | special           | speciální příznak projevu       | ''{čtené, pro děti, Y}'' (''Y'' pro projevy bez příznaku) | 
 +| ::: | source            | zdroj                           | ''{vlastní sběr, volně dostupná nahrávka}''
 +| ::: | speakers          | počet mluvčích v nahrávce       | | 
 +| ::: | length            | délka nahrávky v minutách       | | 
 +| ::: | tokens            | počet všech tokenů v nahrávce   | | 
 +| sp | id          | identifikátor segmentu                                      | unikátní číslo pro každý segment | 
 +| ::: | nickname    | přezdívka mluvčího                                          | náhodně přidělená příjmení | 
 +| ::: | speaker_id  | číslo doplňující přezdívku mluvčího                         | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| 
 +| ::: | gender      | pohlaví                                                     
 +| ::: | proportion  | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |  | 
 +| ::: | soundfile   | číslo a formát nahrávky                                      |
  
-^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ 
-| doc | id            | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | 
-| ::: | temp          | rok nahrání sondy | např. ''2008'' | 
-| ::: | pocet         | počet mluvčích v sondě | ''<číslo>'' | 
-| ::: | promluva      | typ promluvy | ''N'' (neformální) | 
-| ::: | //Atributy ''vztah'' a ''situace'' jsou obsažené pouze v korpusu ORAL2013:// ||| 
-| ::: | vztah         | vztah mezi mluvčími | ''{přátelskost,známost}'' | 
-| ::: | situace       | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' | 
-| sp  | num           | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' | 
-| ::: | pohlavi       | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' | 
-| ::: | vek           | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | 
-| ::: | veknum        | věk mluvčího (číselně) | ''<číslo>'' | 
-| ::: | vzdelani      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | 
-| ::: | vzdelanityp   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | 
-| ::: | oblast        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | 
-| ::: | //Atributy ''oznacenishody'' a ''prekryv'' jsou obsažené pouze v korpusu ORAL2013:// ||| 
-| ::: | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' | 
-| ::: | prekryv       | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | 
-| seg | - | nižší technická jednotka členění mluveného textu | 
  
 ==== Strukturní atributy korpusu DIALEKT ==== ==== Strukturní atributy korpusu DIALEKT ====
Řádek 133: Řádek 138:
 | ::: | noblastdet     | východomoravská      | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | ::: | noblastdet     | východomoravská      | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
  
-==== Strukturní atributy korpusu ORATOR ==== 
  
-Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje:+==== Strukturní atributy korpusu Jazyky v migraci ====
  
-^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ +Korpus [[cnk:jazyky-v-migraci|Jazyky v migraci]] obsahuje následující údaje:
-| doc | id                | jednoznačný identifikátor sondy | | +
-| ::: | year              | rok pořízení nahrávky           | | +
-| ::: | location          | místo nahrávky                  | obce ČR | +
-| ::: | situation         | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení''+
-| ::: | framing           | zaměření projevu                | ''oficiální, popularizační, politické, profesní, vědecké''+
-| ::: | genre             | žánr projevu                    | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | +
-::: | audience_present  | přítomnost publika              | ''ano, ne''+
-| ::: | intended_audience | jakému publiku je projev určen  | ''skupina, veřejnost''+
-| ::: | special           | speciální příznak projevu       | ''čtené, pro děti, Y'' (pro projevy bez příznaku) | +
-| ::: | source            | zdroj                           | ''vlastní sběr, volně dostupná nahrávka''+
-| ::: | speakers          | počet mluvčích v nahrávce       | | +
-| ::: | length            | délka nahrávky v minutách       | | +
-| ::: | tokens            | počet všech tokenů v nahrávce   | | +
-| sp | id          | identifikátor segmentu                                      | unikátní číslo pro každý segment | +
-| ::: | nickname    | přezdívka mluvčího                                          | náhodně přidělená příjmení | +
-| ::: | speaker_id  | číslo doplňující přezdívku mluvčího                         | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| +
-| ::: | gender      | pohlaví                                                     +
-| ::: | proportion  | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |  | +
-| ::: | soundfile   | číslo a formát nahrávky                                      |+
  
-Pozn. Některé atributy mluvených korpusů připouštějí hodnotu ''Y'', která značí, že údaj není známBývá uveden u mluvčíchkteří se rozhovoru objevují krátce (např. servírka rozhovoru vedeném restauraci).+^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ 
 +| doc | id | A1CS11 | unikátní identifikátor nahrávky | ''<řetězec čísel a velkých písmen>'' 
 +| ::: | language | cs | hlavní jazyk | ''{csde}''
 +| ::: | speakers | 1 | počet mluvčíchvyjma explorátory | ''<číslo>''
 +| ::: | situation_cs | doma | popis situace česky | ''{doma, kancelář, veřejný prostor}''
 +| ::: | situation_de | zu Hause | popis situace německy | ''{Büro, zu Hause, öffentlicher Raum}''
 +| ::: | topics_cs | emigrace%%|%%známí%%|%%škola | témata česky | více možností, včmultihodnot | 
 +| ::: | topics_de | Auswanderung%%|%%Bekannte%%|%%Schule | témata německy | více možností, vč. multihodnot | 
 +| sp  | id | A1CS11:187 | unikátní identifikátor segmentu | ''<doc.id>:<pořadové číslo v rámci nahrávky>''
 +| ::: | nickname | Erika B. | přezdívka mluvčího | | 
 +| ::: | gender | F | pohlaví mluvčího | ''{FM}''
 +| ::: | born | 1956 | rok narození mluvčího | ''<číslo>''
 +| ::: | immigrated | 1968 | rok emigrace mluvčího do Německa | ''<číslo>''
 +| ::: | reg_birth | Liberecký kraj | region narození mluvčího | ''{Hlavní město Praha, Jihočeský kraj, Karlovarský kraj, Královéhradecký kraj, Liberecký kraj, Moravskoslezský kraj, Olomoucký kraj, Plzeňský kraj, západní Čechy, Ústecký kraj}''
 +| ::: | reg_current | Bayern | region současného pobytu mluvčího | ''{Baden-Württemberg, Bayern, Hessen}''
 +| ::: | loctype_birth_cs | venkov | typ místa narození mluvčího česky| ''{město, venkov}''
 +| ::: | loctype_birth_de | ländlich | typ místa narození mluvčího německy | ''{ländlich, städtisch}''
 +| ::: | loctype_current_cs | venkov | typ místa současného pobytu mluvčího česky| ''{město, venkov}''
 +| ::: | loctype_current_de | ländlich | typ místa současného pobytu mluvčího německy | ''{ländlich, städtisch}''
 +| ::: | generation_cs | pozdní vysídlenci | generace mluvčího česky | ''{migranti, pozdní vysídlenci}''
 +| ::: | generation_de | Spätaussiedler:innen | generace mluvčího německy | ''{Migrant:innen, Spätaussiedler:innen}''
 +| ::: | education_cs | VŠ | vzdělání mluvčího česky | ''{SŠ, VŠ}''
 +| ::: | education_de | Hochschulabschluss | vzdělání mluvčího německy | ''{Abitur/Berufsbildende Schule, Hochschulabschluss}''
 +| ::: | langgener_category | PAT%%|%%AA | viz první tabulka [[cnk:jazyky-v-migraci#znackovani|v sekci Značkování v popisu korpusu]] | hodnoty z tabulky jako multihodnoty dle pořadí výskytu segmentu (mohou se i opakovat) | 
 +| ::: | syntactic_phrase | VP%%|%%NP | viz druhá tabulka [[cnk:jazyky-v-migraci#znackovani|sekci Značkování v popisu korpusu]] | hodnoty z tabulky jako multihodnoty dle pořadí výskytu v segmentu (mohou se i opakovat
 +| ::: | soundfile | 7/f/66466a1f.mp3 | soubor s odpovídající zvukovou nahrávkou | |
  
 +
 +==== Strukturní atributy korpusů ORAL2006, ORAL2008 a ORAL2013 ====
 +
 +Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující údaje:
 +
 +^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^
 +| doc | id            | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' |
 +| ::: | temp          | rok nahrání sondy | např. ''2008'' |
 +| ::: | pocet         | počet mluvčích v sondě | ''<číslo>'' |
 +| ::: | promluva      | typ promluvy | ''N'' (neformální) |
 +| ::: | //Další atributy pod strukturou ''doc'' jsou obsažené pouze v korpusu ORAL2013:// |||
 +| ::: | vztah         | vztah mezi mluvčími | ''{přátelskost,známost}'' |
 +| ::: | situace       | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' |
 +| sp  | num           | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' |
 +| ::: | pohlavi       | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' |
 +| ::: | vek           | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' |
 +| ::: | veknum        | věk mluvčího (číselně) | ''<číslo>'' |
 +| ::: | vzdelani      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' |
 +| ::: | vzdelanityp   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' |
 +| ::: | oblast        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' |
 +| ::: | //Další atributy pod strukturou ''sp'' jsou obsažené pouze v korpusu ORAL2013:// |||
 +| ::: | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' |
 +| ::: | prekryv       | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' |
 +| seg | - | nižší hierarchická jednotka členění mluveného textu |
 +
 +Pozn. Některé atributy mluvených korpusů připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).