AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Poslední revizeObě strany příští revize
pojmy:atributy_strukturni [2019/12/17 13:32] – [Strukturní atributy mluvených korpusů] zuzanakomrskovapojmy:atributy_strukturni [2022/06/07 21:20] – stará verze byla obnovena (2022/06/02 14:56) jankrivan
Řádek 119: Řádek 119:
 Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).
  
-=== Atributy společné všem jednotlivým korpusům řady ORAL ===+=== Atributy společné korpusům ORAL2006, ORAL2008 a ORAL2013 === 
 + 
 +Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující strukturní atributy:
  
 ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^
Řádek 134: Řádek 136:
 |     | oblast        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | |     | oblast        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' |
  
-**Atributy dostupné pouze v korpusu [[cnk:oral2013|ORAL2013]]**+=== Další atributy v korpusu ORAL2013 === 
 + 
 +Korpus [[cnk:oral2013|ORAL2013]] obsahuje navíc oproti [[pojmy:atributy_strukturni#atributy_spolecne_korpusum_oral2006_oral2008_a_oral2013|výše uvedeným]] společným tyto strukturní atributy:
  
 ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^
Řádek 142: Řádek 146:
 |     | prekryv       | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | |     | prekryv       | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' |
  
-**Atributy dostupné ve spojeném korpusu [[cnk:oral|ORAL]]: údaje k nahrávce**+=== Atributy společné spojenému korpusu ORAL a korpusu ORTOFON === 
 + 
 +Korpusy [[cnk:oral|ORAL]] a [[cnk:ortofon|ORTOFON]] obsahují následující údaje k nahrávce:
  
 ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^ ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^
Řádek 159: Řádek 165:
 | doc.number        | 2            | počet mluvčích v nahrávce| | doc.number        | 2            | počet mluvčích v nahrávce|
  
-**Atributy dostupné ve spojeném korpusu [[cnk:oral|ORAL]]: údaje k mluvčímu**+A následující údaje k mluvčímu:
  
 ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^  ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ 
Řádek 175: Řádek 181:
 | sp.overlap       | ano            | značí, zda se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' | | sp.overlap       | ano            | značí, zda se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' |
  
-=== Atributy dostupné pro mluvené korpusy s dvouúrovňovou transkripcí ===+=== Další atributy v korpusu ORTOFON ===
  
-**Atributy pro korpus [[cnk:ortofon|ORTOFON]]** (navíc oproti spojenému korpusu ORAL)+Korpus [[cnk:ortofon|ORTOFON]] obsahuje kromě [[pojmy:atributy_strukturni#atributy_spolecne_spojenemu_korpusu_oral_a_korpusu_ortofon|výše uvedených]] společných navíc ještě tyto atributy:
  
 ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^
Řádek 198: Řádek 204:
  
  
-**Atributy pro korpus [[cnk:dialekt|DIALEKT]]údaje k nahrávce**+=== Atributy pro korpus DIALEKT === 
 + 
 +Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje k nahrávce:
  
 ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^
Řádek 220: Řádek 228:
 | doc.explorator  | ano                             | přítomnost exploratora v nahrávce | ''{ano, ne}'' | | doc.explorator  | ano                             | přítomnost exploratora v nahrávce | ''{ano, ne}'' |
  
-**Atributy pro korpus [[cnk:dialekt|DIALEKT]]: údaje k mluvčímu**+A tyto údaje k mluvčímu:
  
 ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^
Řádek 243: Řádek 251:
 | sp.noblastdet     | východomoravská      | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | sp.noblastdet     | východomoravská      | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
  
-**Atributy pro korpus [[cnk:orator|ORATOR]]údaje k nahrávce**+=== Atributy pro korpus ORATOR === 
 + 
 +Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje k nahrávce
 ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^
 | doc | id                | jednoznačný identifikátor sondy | | | doc | id                | jednoznačný identifikátor sondy | |
Řádek 250: Řádek 261:
 |     | situation         | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení'' | |     | situation         | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení'' |
 |     | framing           | zaměření projevu                | ''oficiální, popularizační, politické, profesní, vědecké'' | |     | framing           | zaměření projevu                | ''oficiální, popularizační, politické, profesní, vědecké'' |
-|     | genre             | žánr projevu                    | hodnoty shodné s genderem u psaných korpusů |+|     | genre             | žánr projevu                    | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů |
 |     | audience_present  | přítomnost publika              | ''ano, ne'' | |     | audience_present  | přítomnost publika              | ''ano, ne'' |
 |     | intended_audience | jakému publiku je projev určen  | ''skupina, veřejnost'' | |     | intended_audience | jakému publiku je projev určen  | ''skupina, veřejnost'' |
 |     | special           | speciální příznak projevu       | ''čtené, pro děti, Y'' (pro projevy bez příznaku) | |     | special           | speciální příznak projevu       | ''čtené, pro děti, Y'' (pro projevy bez příznaku) |
 |     | source            | zdroj                           | ''vlastní sběr, volně dostupná nahrávka'' | |     | source            | zdroj                           | ''vlastní sběr, volně dostupná nahrávka'' |
-|     | speakers          | počet mluvčích                  | |+|     | speakers          | počet mluvčích v nahrávce       | |
 |     | length            | délka nahrávky v minutách       | | |     | length            | délka nahrávky v minutách       | |
 |     | tokens            | počet všech tokenů v nahrávce   | | |     | tokens            | počet všech tokenů v nahrávce   | |
  
-**Atributy pro korpus [[cnk:orator|ORATOR]]: údaje k mluvčímu** +A tyto údaje k mluvčímu
-Strukturní atribut Příklad Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka + 
-| sp | id            2533                  +Struktura Atribut Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ 
-|    | nickname      | |  | +| sp | id          identifikátor segmentu                                      unikátní číslo pro každý segment 
-|    | gender        | pohlaví              |  | +|    | nickname    přezdívka mluvčího                                          náhodně přidělená příjmení | 
-|    | proportion    ano                  |  | +|    | speaker_id  | číslo doplňující přezdívku mluvčího                         | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího
-|    | soundfile     1877                 |  |+|    | gender      | pohlaví                                                     |  | 
 +|    | proportion  procentuální zastoupení řeči mluvčího v rámci celé nahrávky |  | 
 +|    | soundfile   číslo a formát nahrávky                                     |  |
  
  
Řádek 274: Řádek 287:
  
   * ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)   * ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)
-  * ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu+  * ''text'' -- text v rámci dokumentů (od verze 11) 
 +  * ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11)
   * ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce   * ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce
   * ''s'' -- věta (sentence); dále je každý odstavec dělen na věty   * ''s'' -- věta (sentence); dále je každý odstavec dělen na věty
 +  * ''hi'' -- řez písma 
 +  * ''lb'' -- identifikátor verše (Bible)
 Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).  Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty). 
  
-Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze6?&#strukturni_atributy|verze 6]], [[cnk:intercorp:verze7?&#strukturni_atributy|verze 7]], [[cnk:intercorp:verze8?&#strukturni_atributy|verze 8]], [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]])+Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]], [[cnk:intercorp:verze10?&#strukturni_atributy|verze 10]], [[cnk:intercorp:verze11?&#strukturni_atributy|verze 11]], [[cnk:intercorp:verze12?&#strukturni_atributy|verze 12]], [[cnk:intercorp:verze13?&#strukturni_atributy|verze 13]])
  
 ==== Související odkazy ==== ==== Související odkazy ====