Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:atributy_strukturni [2017/09/26 14:26]
Václav Cvrček [Struktura korpusů psané češtiny]
pojmy:atributy_strukturni [2020/12/10 10:18] (aktuální)
Adrian Zasina [Strukturní atributy korpusu InterCorp]
Řádek 132: Řádek 132:
 |     | vzdelani      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | |     | vzdelani      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' |
 |     | vzdelanityp   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | |     | vzdelanityp   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' |
-|     | oblast        | nářeční oblast, kde se mluvčí narodil | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' |+|     | oblast        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' |
  
 **Atributy dostupné pouze v korpusu [[cnk:oral2013|ORAL2013]]** **Atributy dostupné pouze v korpusu [[cnk:oral2013|ORAL2013]]**
Řádek 242: Řádek 242:
 | sp.mistodet       | Zápy                 | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| | sp.mistodet       | Zápy                 | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)|
 | sp.noblastdet     | východomoravská      | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | sp.noblastdet     | východomoravská      | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál |
 +
 +**Atributy pro korpus [[cnk:orator|ORATOR]]: údaje k nahrávce**
 +^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^
 +| doc | id                | jednoznačný identifikátor sondy | |
 +|     | year              | rok pořízení nahrávky           | |
 +|     | location          | místo nahrávky                  | obce ČR |
 +|     | situation         | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení'' |
 +|     | framing           | zaměření projevu                | ''oficiální, popularizační, politické, profesní, vědecké'' |
 +|     | genre             | žánr projevu                    | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů |
 +|     | audience_present  | přítomnost publika              | ''ano, ne'' |
 +|     | intended_audience | jakému publiku je projev určen  | ''skupina, veřejnost'' |
 +|     | special           | speciální příznak projevu       | ''čtené, pro děti, Y'' (pro projevy bez příznaku) |
 +|     | source            | zdroj                           | ''vlastní sběr, volně dostupná nahrávka'' |
 +|     | speakers          | počet mluvčích v nahrávce       | |
 +|     | length            | délka nahrávky v minutách       | |
 +|     | tokens            | počet všech tokenů v nahrávce   | |
 +
 +**Atributy pro korpus [[cnk:orator|ORATOR]]: údaje k mluvčímu**
 +^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^
 +| sp | id          | identifikátor segmentu                                      | unikátní číslo pro každý segment |
 +|    | nickname    | přezdívka mluvčího                                          | náhodně přidělená příjmení |
 +|    | speaker_id  | číslo doplňující přezdívku mluvčího                         | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího|
 +|    | gender      | pohlaví                                                      |
 +|    | proportion  | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |  |
 +|    | soundfile   | číslo a formát nahrávky                                      |
 +
 +
  
 ==== Strukturní atributy korpusu InterCorp ==== ==== Strukturní atributy korpusu InterCorp ====
Řádek 248: Řádek 275:
  
   * ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)   * ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat)
-  * ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu+  * ''text'' -- text v rámci dokumentů (od verze 11) 
 +  * ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11)
   * ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce   * ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce
   * ''s'' -- věta (sentence); dále je každý odstavec dělen na věty   * ''s'' -- věta (sentence); dále je každý odstavec dělen na věty
 +  * ''hi'' -- řez písma 
 +  * ''lb'' -- identifikátor verše (Bible)
 Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty).  Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty). 
  
-Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze6?&#strukturni_atributy|verze 6]], [[cnk:intercorp:verze7?&#strukturni_atributy|verze 7]], [[cnk:intercorp:verze8?&#strukturni_atributy|verze 8]], [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]])+Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]], [[cnk:intercorp:verze10?&#strukturni_atributy|verze 10]], [[cnk:intercorp:verze11?&#strukturni_atributy|verze 11]], [[cnk:intercorp:verze12?&#strukturni_atributy|verze 12]], [[cnk:intercorp:verze13?&#strukturni_atributy|verze 13]])
  
 ==== Související odkazy ==== ==== Související odkazy ====