Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:atributy_strukturni [2019/12/17 11:55] – zuzanakomrskova | pojmy:atributy_strukturni [2022/06/07 21:18] – [Strukturní atributy u korpusů řady SYN] jankrivan |
---|
| |
^ Dotaz ^ Vyhodnocení ^ | ^ Dotaz ^ Vyhodnocení ^ |
| ''[word=<nowiki>"</nowiki>ale<nowiki>"</nowiki>] within <opus autor=<nowiki>"</nowiki>Topol, Filip<nowiki>"</nowiki> />'' | všechny výskyty slova //ale// z děl Filipa Topola | | | ''[word=<nowiki>"</nowiki>ale<nowiki>"</nowiki>] within <opus autor=<nowiki>"</nowiki>Diviš, Ivan<nowiki>"</nowiki> />'' | všechny výskyty slova //ale// z děl Ivana Diviše | |
| ''[word=<nowiki>"</nowiki>moc<nowiki>"</nowiki>] within <opus txtype=<nowiki>"</nowiki>(PUB)<nowiki>|</nowiki>(SCI)<nowiki>"</nowiki> />'' | všechny výskyty slova //moc// v opusech označených jako publicistika a vědeckonaučná literatura | | | ''[word=<nowiki>"</nowiki>moc<nowiki>"</nowiki>] within <opus txtype=<nowiki>"</nowiki>(PUB)<nowiki>|</nowiki>(SCI)<nowiki>"</nowiki> />'' | všechny výskyty slova //moc// v opusech označených jako publicistika a vědeckonaučná literatura | |
| |
Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). | Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). |
| |
=== Atributy společné všem jednotlivým korpusům řady ORAL === | === Atributy společné korpusům ORAL2006, ORAL2008 a ORAL2013 === |
| |
| Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující strukturní atributy: |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ |
| | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | | | | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | |
| |
**Atributy dostupné pouze v korpusu [[cnk:oral2013|ORAL2013]]** | === Další atributy v korpusu ORAL2013 === |
| |
| Korpus [[cnk:oral2013|ORAL2013]] obsahuje navíc oproti [[pojmy:atributy_strukturni#atributy_spolecne_korpusum_oral2006_oral2008_a_oral2013|výše uvedeným]] společným tyto strukturní atributy: |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ |
| | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | | | | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | |
| |
**Atributy dostupné ve spojeném korpusu [[cnk:oral|ORAL]]: údaje k nahrávce** | === Atributy společné spojenému korpusu ORAL a korpusu ORTOFON === |
| |
| Korpusy [[cnk:oral|ORAL]] a [[cnk:ortofon|ORTOFON]] obsahují následující údaje k nahrávce: |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^ | ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^ |
| doc.number | 2 | počet mluvčích v nahrávce| | | doc.number | 2 | počet mluvčích v nahrávce| |
| |
**Atributy dostupné ve spojeném korpusu [[cnk:oral|ORAL]]: údaje k mluvčímu** | A následující údaje k mluvčímu: |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ |
| sp.overlap | ano | značí, zda se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' | | | sp.overlap | ano | značí, zda se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' | |
| |
=== Atributy dostupné pro mluvené korpusy s dvouúrovňovou transkripcí === | === Další atributy v korpusu ORTOFON === |
| |
**Atributy pro korpus [[cnk:ortofon|ORTOFON]]** (navíc oproti spojenému korpusu ORAL) | Korpus [[cnk:ortofon|ORTOFON]] obsahuje kromě [[pojmy:atributy_strukturni#atributy_spolecne_spojenemu_korpusu_oral_a_korpusu_ortofon|výše uvedených]] společných navíc ještě tyto atributy: |
| |
^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | ^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ |
| |
| |
**Atributy pro korpus [[cnk:dialekt|DIALEKT]]: údaje k nahrávce** | === Atributy pro korpus DIALEKT === |
| |
| Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje k nahrávce: |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ | ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ |
| doc.explorator | ano | přítomnost exploratora v nahrávce | ''{ano, ne}'' | | | doc.explorator | ano | přítomnost exploratora v nahrávce | ''{ano, ne}'' | |
| |
**Atributy pro korpus [[cnk:dialekt|DIALEKT]]: údaje k mluvčímu** | A tyto údaje k mluvčímu: |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ | ^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ |
| sp.noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | | sp.noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | |
| |
**Atributy pro korpus [[cnk:ortofon|ORATOR]]: údaje k nahrávce** | === Atributy pro korpus ORATOR === |
|doc.audience_present | | | | |
| Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje k nahrávce: |
| |
| ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ |
| | doc | id | jednoznačný identifikátor sondy | | |
| | | year | rok pořízení nahrávky | | |
| | | location | místo nahrávky | obce ČR | |
| | | situation | typ situace | ''ceremoniál, instruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení'' | |
| | | framing | zaměření projevu | ''oficiální, popularizační, politické, profesní, vědecké'' | |
| | | genre | žánr projevu | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | |
| | | audience_present | přítomnost publika | ''ano, ne'' | |
| | | intended_audience | jakému publiku je projev určen | ''skupina, veřejnost'' | |
| | | special | speciální příznak projevu | ''čtené, pro děti, Y'' (pro projevy bez příznaku) | |
| | | source | zdroj | ''vlastní sběr, volně dostupná nahrávka'' | |
| | | speakers | počet mluvčích v nahrávce | | |
| | | length | délka nahrávky v minutách | | |
| | | tokens | počet všech tokenů v nahrávce | | |
| |
| A tyto údaje k mluvčímu: |
| |
| ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ |
| | sp | id | identifikátor segmentu | unikátní číslo pro každý segment | |
| | | nickname | přezdívka mluvčího | náhodně přidělená příjmení | |
| | | speaker_id | číslo doplňující přezdívku mluvčího | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| |
| | | gender | pohlaví | | |
| | | proportion | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | |
| | | soundfile | číslo a formát nahrávky | | |
| |
**Atributy pro korpus [[cnk:ortofon|ORATOR]]: údaje k mluvčímu** | |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ | |
| sp.id | 2533 | | | |
| sp.prezdivka | Dalibor_208 | | | |
| sp.explorator | ano | | | |
| sp.pohlavi | M: muž | | | |
| sp.rok | 1877 | | | |
| sp.vek | V: nad 35 let | | | |
| sp.profese | cestář | | | |
| |
| |
| |
* ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat) | * ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat) |
* ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu | * ''text'' -- text v rámci dokumentů (od verze 11) |
| * ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11) |
* ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce | * ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce |
* ''s'' -- věta (sentence); dále je každý odstavec dělen na věty | * ''s'' -- věta (sentence); dále je každý odstavec dělen na věty |
| * ''hi'' -- řez písma |
| * ''lb'' -- identifikátor verše (Bible) |
Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty). | Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty). |
| |
Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze6?&#strukturni_atributy|verze 6]], [[cnk:intercorp:verze7?&#strukturni_atributy|verze 7]], [[cnk:intercorp:verze8?&#strukturni_atributy|verze 8]], [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]]) | Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]], [[cnk:intercorp:verze10?&#strukturni_atributy|verze 10]], [[cnk:intercorp:verze11?&#strukturni_atributy|verze 11]], [[cnk:intercorp:verze12?&#strukturni_atributy|verze 12]], [[cnk:intercorp:verze13?&#strukturni_atributy|verze 13]]) |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |