Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:atributy_strukturni [2017/06/01 14:58] – petrapoukarova | pojmy:atributy_strukturni [2019/12/17 13:32] – [Strukturní atributy mluvených korpusů] zuzanakomrskova |
---|
| ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | | | ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | |
| ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | | ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | |
| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty ((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | | | ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | |
==== Struktura korpusů mluvené češtiny ==== | ==== Struktura korpusů mluvené češtiny ==== |
| |
V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: | V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: |
* **doc** - dokument; v případě dialogických mluvených korpusů řady ORAL ([[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]]) se jedná o jednu sondu (ucelený rozhovor) | * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) |
* **sp** - mluvčí (//speaker//), resp. jedna jeho promluva | * **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata |
* **seg** - technické (tj. nijak lingvisticky motivované) členění promluv **sp** na kratší úseky | * **seg** - nižší technická jednotka členění mluveného textu, v rámci jednotek **sp** |
| |
| Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat. |
| |
^ Dotaz ^ Vyhodnocení ^ | ^ Dotaz ^ Vyhodnocení ^ |
| | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | | | | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | |
| | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | | | | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | |
| | oblast | nářeční oblast, kde se mluvčí narodil | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | | | | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | |
| |
**Atributy dostupné pouze v korpusu [[cnk:oral2013|ORAL2013]]** | **Atributy dostupné pouze v korpusu [[cnk:oral2013|ORAL2013]]** |
| | locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | | | locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | |
| | soundfile | 5/3/ef2e315f.mp3 | číslo a formát nahrávky | | | | soundfile | 5/3/ef2e315f.mp3 | číslo a formát nahrávky | |
| | id | 3784 | číselné označení mluvčího v rámci jedné nahrávky (na rozdíl od sp.nickname - označení téhož mluvčího ve všech nahrávkách, ve kterých se vyskytuje) | | | | id | 3784 | identifikátor segmentu (struktury sp) | |
| | edu_field | chemické obory | obor vzdělání | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu | | | | edu_field | chemické obory | obor vzdělání | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu | |
| | occupation | sociální pracovník | | | | occupation | sociální pracovník | |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ | ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ |
| sp.id | 2533 | jedinečný kód mluvčího | | | sp.id | 2533 | identifikátor segmentu (struktury sp) | |
| sp.prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví: přezdívky pro muže končí souhláskou, pro ženy samohláskou) | | | sp.prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví | |
| sp.explorator | ano | mluvčí je/není explorátor | ''{ano, ne}'' | | | sp.explorator | ano | mluvčí je/není explorátor | ''{ano, ne}'' | |
| sp.pohlavi | M: muž | pohlaví mluvčího | ''{M: muž, Z: žena}'' | | | sp.pohlavi | M: muž | pohlaví mluvčího | ''{M: muž, Z: žena}'' | |
| sp.mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| | | sp.mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| |
| sp.noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | | sp.noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| |
| **Atributy pro korpus [[cnk:orator|ORATOR]]: údaje k nahrávce** |
| ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ |
| | doc | id | jednoznačný identifikátor sondy | | |
| | | year | rok pořízení nahrávky | | |
| | | location | místo nahrávky | obce ČR | |
| | | situation | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení'' | |
| | | framing | zaměření projevu | ''oficiální, popularizační, politické, profesní, vědecké'' | |
| | | genre | žánr projevu | hodnoty shodné s genderem u psaných korpusů | |
| | | audience_present | přítomnost publika | ''ano, ne'' | |
| | | intended_audience | jakému publiku je projev určen | ''skupina, veřejnost'' | |
| | | special | speciální příznak projevu | ''čtené, pro děti, Y'' (pro projevy bez příznaku) | |
| | | source | zdroj | ''vlastní sběr, volně dostupná nahrávka'' | |
| | | speakers | počet mluvčích | | |
| | | length | délka nahrávky v minutách | | |
| | | tokens | počet všech tokenů v nahrávce | | |
| |
| **Atributy pro korpus [[cnk:orator|ORATOR]]: údaje k mluvčímu** |
| ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ |
| | sp | id | 2533 | | |
| | | nickname | | | |
| | | gender | pohlaví | | |
| | | proportion | ano | | |
| | | soundfile | 1877 | | |
| |
| |
| |
==== Strukturní atributy korpusu InterCorp ==== | ==== Strukturní atributy korpusu InterCorp ==== |