AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
pojmy:atributy_strukturni [2017/06/01 14:58] Petra Poukarovápojmy:atributy_strukturni [2017/09/26 14:26] – [Struktura korpusů psané češtiny] Václav Cvrček
Řádek 34: Řádek 34:
 | ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | | ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu |
 | ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu |
-| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty ((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) |+| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) |
 ==== Struktura korpusů mluvené češtiny ==== ==== Struktura korpusů mluvené češtiny ====
  
 V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu:
-  * **doc** - dokument; v případě dialogických mluvených korpusů řady ORAL ([[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]]) se jedná o jednu sondu (ucelený rozhovor) +  * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) 
-  * **sp** - mluvčí (//speaker//)resp. jedna jeho promluva +  * **sp** - vyšší technická jednotka členění mluveného textuvázaná na identitu mluvčího a nesoucí jeho metadata 
-  * **seg** - technické (tj. nijak lingvisticky motivované) členění promluv **sp** na kratší úseky+  * **seg** - nižší technická jednotka členění mluveného textu, v rámci jednotek **sp** 
 + 
 +Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat.
  
 ^ Dotaz ^ Vyhodnocení ^ ^ Dotaz ^ Vyhodnocení ^
Řádek 184: Řádek 186:
 |             | locsize_current    | město nad 100 tisíc  | velikost sídla, kde mluvčí žije v současné době  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  | |             | locsize_current    | město nad 100 tisíc  | velikost sídla, kde mluvčí žije v současné době  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  |
 |             | soundfile          | 5/3/ef2e315f.mp3  | číslo a formát nahrávky  |   |             | soundfile          | 5/3/ef2e315f.mp3  | číslo a formát nahrávky  |  
-|             | id                 | 3784  | číselné označení mluvčího v rámci jedné nahrávky (na rozdíl od sp.nickname - označení téhož mluvčího ve všech nahrávkách, ve kterých se vyskytuje)  | +|             | id                 | 3784  | identifikátor segmentu (struktury sp)  | 
 |             | edu_field          | chemické obory  | obor vzdělání  | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu  | |             | edu_field          | chemické obory  | obor vzdělání  | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu  |
 |             | occupation         | sociální pracovník  |    |             | occupation         | sociální pracovník  |   
Řádek 221: Řádek 223:
  
 ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^
-| sp.id             | 2533                 jedinečný kód mluvčího +| sp.id             | 2533                 identifikátor segmentu (struktury sp) 
-| sp.prezdivka      | Dalibor_208          | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví: přezdívky pro muže končí souhláskou, pro ženy samohláskou) |+| sp.prezdivka      | Dalibor_208          | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví |
 | sp.explorator     | ano                  | mluvčí je/není explorátor | ''{ano, ne}'' | | sp.explorator     | ano                  | mluvčí je/není explorátor | ''{ano, ne}'' |
 | sp.pohlavi        | M: muž               | pohlaví mluvčího | ''{M: muž, Z: žena}'' | | sp.pohlavi        | M: muž               | pohlaví mluvčího | ''{M: muž, Z: žena}'' |