Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize |
pojmy:atributy_strukturni [2017/06/01 10:25] – [Strukturní atributy mluvených korpusů] martinawaclawicova | pojmy:atributy_strukturni [2022/06/07 21:20] – stará verze byla obnovena (2022/06/02 14:56) jankrivan |
---|
| ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | | | ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | |
| ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | | ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | |
| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty ((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | | | ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | |
==== Struktura korpusů mluvené češtiny ==== | ==== Struktura korpusů mluvené češtiny ==== |
| |
V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: | V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: |
* **doc** - dokument; v případě dialogických mluvených korpusů řady ORAL ([[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]]) se jedná o jednu sondu (ucelený rozhovor) | * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) |
* **sp** - mluvčí (//speaker//), resp. jedna jeho promluva | * **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata |
* **seg** - technické (tj. nijak lingvisticky motivované) členění promluv **sp** na kratší úseky | * **seg** - nižší technická jednotka členění mluveného textu, v rámci jednotek **sp** |
| |
| Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat. |
| |
^ Dotaz ^ Vyhodnocení ^ | ^ Dotaz ^ Vyhodnocení ^ |
Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). | Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). |
| |
=== Atributy společné všem jednotlivým korpusům řady ORAL === | === Atributy společné korpusům ORAL2006, ORAL2008 a ORAL2013 === |
| |
| Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující strukturní atributy: |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ |
| | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | | | | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | |
| | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | | | | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | |
| | oblast | nářeční oblast, kde se mluvčí narodil | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | | | | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | |
| |
**Atributy dostupné pouze v korpusu [[cnk:oral2013|ORAL2013]]** | === Další atributy v korpusu ORAL2013 === |
| |
| Korpus [[cnk:oral2013|ORAL2013]] obsahuje navíc oproti [[pojmy:atributy_strukturni#atributy_spolecne_korpusum_oral2006_oral2008_a_oral2013|výše uvedeným]] společným tyto strukturní atributy: |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ |
| | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | | | | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | |
| |
**Atributy dostupné ve spojeném korpusu [[cnk:oral|ORAL]]: údaje k nahrávce** | === Atributy společné spojenému korpusu ORAL a korpusu ORTOFON === |
| |
| Korpusy [[cnk:oral|ORAL]] a [[cnk:ortofon|ORTOFON]] obsahují následující údaje k nahrávce: |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^ | ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^ |
| doc.formality | neformální | neformální situace | ''{neformální, formální}'' | v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (''N'' pro neformální, ''F'' pro formální) | ''N'', ''F'' | | doc.formality | neformální | neformální situace | ''{neformální, formální}'' | v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (''N'' pro neformální, ''F'' pro formální) | ''N'', ''F'' |
| doc.preparedness | nepřipravená | označení, zda byl rozhovor předem připraven, či ne | ''{připravená, nepřipravená}'' | souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak | | | doc.preparedness | nepřipravená | označení, zda byl rozhovor předem připraven, či ne | ''{připravená, nepřipravená}'' | souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak | |
| doc.audio | ne | je k transkriptu dostupný zvuk? | ''{ano, ne}''| nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano | | | doc.audio | ne | informace, zda je k transkriptu dostupný zvuk | ''{ano, ne}''| nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano | |
| doc.year | 2006 | rok pořízení nahrávky | | | doc.year | 2006 | rok pořízení nahrávky | |
| doc.location | Praha | místo pořízení nahrávky | | | doc.location | Praha | místo pořízení nahrávky | |
| doc.number | 2 | počet mluvčích v nahrávce| | | doc.number | 2 | počet mluvčích v nahrávce| |
| |
**Atributy dostupné ve spojeném korpusu [[cnk:oral|ORAL]]: údaje k mluvčímu** | A následující údaje k mluvčímu: |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ |
| sp.nickname | Milena_2633 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví: přezdívky pro muže končí souhláskou, pro ženy samohláskou | | | sp.nickname | Milena_2633 | automaticky přiřazená přezdívka | |
| sp.gender | M | pohlaví mluvčího | ''{Z'' (žena)'', M ''(muž)''}'' nebo ''Y'' | | | sp.gender | M | pohlaví mluvčího | ''{Z'' (žena)'', M ''(muž)''}'' nebo ''Y'' | |
| sp.edu_level | SŠ | nejvyšší dosažené vzdělání | ''{SŠ, VŠ, ZŠ}'' nebo ''Y'' | | | sp.edu_level | SŠ | nejvyšší dosažené vzdělání | ''{SŠ, VŠ, ZŠ}'' nebo ''Y'' | |
| sp.age | 54 | věk mluvčího | | | sp.age | 54 | věk mluvčího | |
| sp.reg_current | středomoravská | místo současného pobytu mluvčího | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' | | | sp.reg_current | středomoravská | nářeční oblast současného pobytu mluvčího | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' | |
| sp.proportion | 23 % | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | | sp.proportion | 23 % | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | |
| sp.confederate | ne | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | ''{ano, ne}'' | | | sp.confederate | ne | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | ''{ano, ne}'' | |
| sp.edu_binary | B | vzdělání mluvčího (hrubé rozlišení) | ''{A'' (altus, vysokoškolské včetně pouze započatého)'',B'' (basis, základní a středoškolské)''}'' nebo ''Y'' | | | sp.edu_binary | B | vzdělání mluvčího (hrubé rozlišení) | ''{A'' (altus, vysokoškolské včetně pouze započatého)'',B'' (basis, základní a středoškolské)''}'' nebo ''Y'' | |
| sp.age_binary | I | věk mluvčího (hrubé rozlišení) | ''{I'' (iunior, mladší: cca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | | | sp.age_binary | I | věk mluvčího (hrubé rozlišení) | ''{I'' (iunior, mladší: cca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | |
| sp.reg_childhood | středomoravská | místo pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' | | | sp.reg_childhood | středomoravská | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' | |
| sp.occupation | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | ''{kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač}'' a další | | | sp.occupation | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | ''{kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač}'' a další | |
| sp.overlap | ano | značí, zda se se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' | | | sp.overlap | ano | značí, zda se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' | |
| |
=== Atributy dostupné pro mluvené korpusy s dvouúrovňovou transkripcí === | === Další atributy v korpusu ORTOFON === |
| |
**Atributy pro korpus [[cnk:ortofon|ORTOFON]]** (navíc oproti spojenému korpusu ORAL) | Korpus [[cnk:ortofon|ORTOFON]] obsahuje kromě [[pojmy:atributy_strukturni#atributy_spolecne_spojenemu_korpusu_oral_a_korpusu_ortofon|výše uvedených]] společných navíc ještě tyto atributy: |
| |
^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ |
| | locsize_longest | město nad 100 tisíc | velikost sídla, kde mluvčí žil nejdelší dobu | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | | | locsize_longest | město nad 100 tisíc | velikost sídla, kde mluvčí žil nejdelší dobu | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | |
| | locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | | | locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | |
| | soundfile | 5/3/ef2e315f.mp3 | | | | soundfile | 5/3/ef2e315f.mp3 | číslo a formát nahrávky | |
| | id | 3784 | číselné označení mluvčího v rámci jedné nahrávky | číslo a formát nahrávky (na rozdíl od sp.nickname - označení téhož mluvčího ve všech nahrávkách, ve kterých se vyskytuje) | | | | id | 3784 | identifikátor segmentu (struktury sp) | |
| | edu_field | chemické obory | obor vzdělání | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu | | | | edu_field | chemické obory | obor vzdělání | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu | |
| | occupation | sociální pracovník | | | | occupation | sociální pracovník | |
| |
| |
**Atributy pro korpus [[cnk:dialekt|DIALEKT]]: údaje k nahrávce** | === Atributy pro korpus DIALEKT === |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (Položky jsou řazeny podle abecedy) ^ Poznámka ^ | Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje k nahrávce: |
| |
| ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ |
| doc.id | 001-C-SVC-1957-SA | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | | | doc.id | 001-C-SVC-1957-SA | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | |
| doc.zdroj | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' | | | doc.zdroj | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' | |
| doc.stat | Česká republika | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}'' | | | doc.stat | Česká republika | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}'' | |
| doc.region | Čechy | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}'' | | | doc.region | Čechy | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}'' | |
| doc.noblast | středočeská | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | | | doc.noblast | středočeská | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| doc.npodskupina | jižní (slovácká) | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | | | doc.npodskupina | jižní (slovácká) | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| doc.núsek | západní (opavský) | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | | | doc.núsek | západní (opavský) | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| doc.ntyp | doudlebský | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | | | doc.ntyp | doudlebský | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| doc.okres | Domažlice | místo pořízení nahrávky - okres | | | doc.okres | Domažlice | místo pořízení nahrávky - okres | |
| doc.promluvatyp | monolog | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}'' | | | doc.promluvatyp | monolog | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}'' | |
| doc.explorator | ano | přítomnost exploratora v nahrávce | ''{ano, ne}'' | | | doc.explorator | ano | přítomnost exploratora v nahrávce | ''{ano, ne}'' | |
| |
**Atributy pro korpus [[cnk:dialekt|DIALEKT]]: údaje k mluvčímu** | A tyto údaje k mluvčímu: |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (Položky jsou řazeny podle abecedy) ^ Poznámka ^ | ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ |
| sp.id | 2533 | jedinečný kód mluvčího | | | sp.id | 2533 | identifikátor segmentu (struktury sp) | |
| sp.prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví: přezdívky pro muže končí souhláskou, pro ženy samohláskou) | | | sp.prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví | |
| sp.explorator | ano | mluvčí je/není explorátor | ''{ano, ne}'' | | | sp.explorator | ano | mluvčí je/není explorátor | ''{ano, ne}'' | |
| sp.pohlavi | M: muž | pohlaví mluvčího | ''{M: muž, Z: žena}'' | | | sp.pohlavi | M: muž | pohlaví mluvčího | ''{M: muž, Z: žena}'' | |
| sp.statnej | Česká republika | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}'' | | | sp.statnej | Česká republika | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}'' | |
| sp.regionnej | Čechy | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}'' | | | sp.regionnej | Čechy | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}'' | |
| sp.noblastnej | českomoravská | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | | | sp.noblastnej | českomoravská | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| sp.npodskupinanej | severní (valašská) | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | | | sp.npodskupinanej | severní (valašská) | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| sp.nuseknej | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | | | sp.nuseknej | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| sp.ntypnej | jemnický | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | | | sp.ntypnej | jemnický | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| sp.mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| | | sp.mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| |
| sp.noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | | | sp.noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| |
| === Atributy pro korpus ORATOR === |
| |
| Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje k nahrávce: |
| |
| ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ |
| | doc | id | jednoznačný identifikátor sondy | | |
| | | year | rok pořízení nahrávky | | |
| | | location | místo nahrávky | obce ČR | |
| | | situation | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení'' | |
| | | framing | zaměření projevu | ''oficiální, popularizační, politické, profesní, vědecké'' | |
| | | genre | žánr projevu | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | |
| | | audience_present | přítomnost publika | ''ano, ne'' | |
| | | intended_audience | jakému publiku je projev určen | ''skupina, veřejnost'' | |
| | | special | speciální příznak projevu | ''čtené, pro děti, Y'' (pro projevy bez příznaku) | |
| | | source | zdroj | ''vlastní sběr, volně dostupná nahrávka'' | |
| | | speakers | počet mluvčích v nahrávce | | |
| | | length | délka nahrávky v minutách | | |
| | | tokens | počet všech tokenů v nahrávce | | |
| |
| A tyto údaje k mluvčímu: |
| |
| ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ |
| | sp | id | identifikátor segmentu | unikátní číslo pro každý segment | |
| | | nickname | přezdívka mluvčího | náhodně přidělená příjmení | |
| | | speaker_id | číslo doplňující přezdívku mluvčího | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| |
| | | gender | pohlaví | | |
| | | proportion | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | |
| | | soundfile | číslo a formát nahrávky | | |
| |
| |
==== Strukturní atributy korpusu InterCorp ==== | ==== Strukturní atributy korpusu InterCorp ==== |
| |
* ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat) | * ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat) |
* ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu | * ''text'' -- text v rámci dokumentů (od verze 11) |
| * ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11) |
* ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce | * ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce |
* ''s'' -- věta (sentence); dále je každý odstavec dělen na věty | * ''s'' -- věta (sentence); dále je každý odstavec dělen na věty |
| * ''hi'' -- řez písma |
| * ''lb'' -- identifikátor verše (Bible) |
Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty). | Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty). |
| |
Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze6?&#strukturni_atributy|verze 6]], [[cnk:intercorp:verze7?&#strukturni_atributy|verze 7]], [[cnk:intercorp:verze8?&#strukturni_atributy|verze 8]], [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]]) | Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]], [[cnk:intercorp:verze10?&#strukturni_atributy|verze 10]], [[cnk:intercorp:verze11?&#strukturni_atributy|verze 11]], [[cnk:intercorp:verze12?&#strukturni_atributy|verze 12]], [[cnk:intercorp:verze13?&#strukturni_atributy|verze 13]]) |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |