Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:atributy_strukturni [2017/09/26 10:32]
davidlukes [Strukturní atributy mluvených korpusů] oprava nepřesností v popisu atributů
pojmy:atributy_strukturni [2017/11/14 10:18] (aktuální)
Martina Waclawičová [Strukturní atributy mluvených korpusů]
Řádek 34: Řádek 34:
 | ''​[word=<​nowiki>"</​nowiki>​život<​nowiki>"</​nowiki>​][word=<​nowiki>"</​nowiki>​\.<​nowiki>"</​nowiki>​]</​doc>''​ | výskyty sekvence slov //život// a "​."​ na konci (libovolného) dokumentu | | ''​[word=<​nowiki>"</​nowiki>​život<​nowiki>"</​nowiki>​][word=<​nowiki>"</​nowiki>​\.<​nowiki>"</​nowiki>​]</​doc>''​ | výskyty sekvence slov //život// a "​."​ na konci (libovolného) dokumentu |
 | ''<​doc>​ [lemma=<​nowiki>"</​nowiki>​kdepak<​nowiki>"</​nowiki>​]''​ | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | ''<​doc>​ [lemma=<​nowiki>"</​nowiki>​kdepak<​nowiki>"</​nowiki>​]''​ | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu |
-| ''​[word=<​nowiki>"</​nowiki>​jak<​nowiki>"</​nowiki>​][]*[word=<​nowiki>"</​nowiki>​tak<​nowiki>"</​nowiki>​] within <s />''​ | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty ((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) |+| ''​[word=<​nowiki>"</​nowiki>​jak<​nowiki>"</​nowiki>​][]*[word=<​nowiki>"</​nowiki>​tak<​nowiki>"</​nowiki>​] within <s />''​ | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) |
 ==== Struktura korpusů mluvené češtiny ==== ==== Struktura korpusů mluvené češtiny ====
  
 V korpusech **[[pojmy:​mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: V korpusech **[[pojmy:​mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu:
-  * **doc** - dokument; v případě dialogických mluvených korpusů ​řady ORAL ([[cnk:​oral2006|ORAL2006]] a [[cnk:​oral2008|ORAL2008]]) ​se jedná o jednu sondu (ucelený rozhovor) +  * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) 
-  * **sp** - mluvčí (//​speaker//​)resp. jedna jeho promluva +  * **sp** - vyšší technická jednotka členění mluveného textuvázaná na identitu mluvčího a nesoucí ​jeho metadata 
-  * **seg** - technické (tj. nijak lingvisticky motivované) ​členění ​promluv ​**sp** na kratší úseky+  * **seg** - nižší technická jednotka ​členění ​mluveného textu, v rámci jednotek ​**sp** 
 + 
 +Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**,​ nicméně s [[http://​sas.ujc.cas.cz/​archiv.php?​art=203|lingvistickým konceptem téhož jména]] nemá nic společného:​ pokyn členit projev ​na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:​oral2006|ORAL2006]] a [[cnk:​oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.
  
 ^ Dotaz ^ Vyhodnocení ^ ^ Dotaz ^ Vyhodnocení ^
Řádek 130: Řádek 132:
 |     | vzdelani ​     | vzdělání mluvčího (hrubé rozlišení) | ''​{A''​(altus,​ vysokoškolské včetně pouze započatého)'',​B''​(basis,​ základní a středoškolské)''​}''​ nebo ''​Y''​ | |     | vzdelani ​     | vzdělání mluvčího (hrubé rozlišení) | ''​{A''​(altus,​ vysokoškolské včetně pouze započatého)'',​B''​(basis,​ základní a středoškolské)''​}''​ nebo ''​Y''​ |
 |     | vzdelanityp ​  | vzdělání mluvčího (jemnější rozlišení) | ''​{SŠ,​VŠ,​ZŠ}''​ nebo ''​Y''​ | |     | vzdelanityp ​  | vzdělání mluvčího (jemnější rozlišení) | ''​{SŠ,​VŠ,​ZŠ}''​ nebo ''​Y''​ |
-|     | oblast ​       | nářeční oblast, kde se mluvčí narodil ​| ''​{česko-moravská,​jihozápadočeská,​pohraničí české,​pohraničí moravské,​severovýchodočeská,​slezská,​středočeská,​středomoravská,​východomoravská}''​ nebo ''​Y''​ |+|     | oblast ​       | nářeční oblast ​místa pobytu ​mluvčího v dětství (do 15 let) | ''​{česko-moravská,​jihozápadočeská,​pohraničí české,​pohraničí moravské,​severovýchodočeská,​slezská,​středočeská,​středomoravská,​východomoravská}''​ nebo ''​Y''​ |
  
 **Atributy dostupné pouze v korpusu [[cnk:​oral2013|ORAL2013]]** **Atributy dostupné pouze v korpusu [[cnk:​oral2013|ORAL2013]]**
Řádek 184: Řádek 186:
 |             | locsize_current ​   | město nad 100 tisíc ​ | velikost sídla, kde mluvčí žije v současné době  | ''​{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}''​ nebo ''​Y'' ​ | |             | locsize_current ​   | město nad 100 tisíc ​ | velikost sídla, kde mluvčí žije v současné době  | ''​{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}''​ nebo ''​Y'' ​ |
 |             | soundfile ​         | 5/​3/​ef2e315f.mp3 ​ | číslo a formát nahrávky ​ |  ​ |             | soundfile ​         | 5/​3/​ef2e315f.mp3 ​ | číslo a formát nahrávky ​ |  ​
-|             | id                 | 3784  | identifikátor ​"​promluvy" ​(struktury sp)  | +|             | id                 | 3784  | identifikátor ​segmentu ​(struktury sp)  | 
 |             | edu_field ​         | chemické obory  | obor vzdělání ​ | ''​{ekologie a ochrana životního prostředí,​ strojírenství,​ elektrotechnika,​ zdravotnictví,​ doprava a spoje, právo a právní činnost}''​ a další, výběr oborů z předdefinovaného seznamu ​ | |             | edu_field ​         | chemické obory  | obor vzdělání ​ | ''​{ekologie a ochrana životního prostředí,​ strojírenství,​ elektrotechnika,​ zdravotnictví,​ doprava a spoje, právo a právní činnost}''​ a další, výběr oborů z předdefinovaného seznamu ​ |
 |             | occupation ​        | sociální pracovník ​ |    |             | occupation ​        | sociální pracovník ​ |   
Řádek 221: Řádek 223:
  
 ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^
-| sp.id             | 2533                 | identifikátor ​"​promluvy" ​(struktury sp) |+| sp.id             | 2533                 | identifikátor ​segmentu ​(struktury sp) |
 | sp.prezdivka ​     | Dalibor_208 ​         | automaticky vygenerovaná přezdívka,​ ze které je patrné pohlaví | | sp.prezdivka ​     | Dalibor_208 ​         | automaticky vygenerovaná přezdívka,​ ze které je patrné pohlaví |
 | sp.explorator ​    | ano                  | mluvčí je/není explorátor | ''​{ano,​ ne}''​ | | sp.explorator ​    | ano                  | mluvčí je/není explorátor | ''​{ano,​ ne}''​ |