Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:atributy_strukturni [2017/11/14 10:18] – [Strukturní atributy mluvených korpusů] martinawaclawicova | pojmy:atributy_strukturni [2022/08/25 17:17] (aktuální) – jankrivan |
---|
Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi [[cnk:syn2000|SYN2000]], prvním velkým korpusem ČNK, a ostatními korpusy [[cnk:syn|řady SYN]]). | Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi [[cnk:syn2000|SYN2000]], prvním velkým korpusem ČNK, a ostatními korpusy [[cnk:syn|řady SYN]]). |
| |
==== Struktura korpusů psané češtiny ==== | Struktury podle typu korpusu jsou představeny na zvláštních stránkách: |
| |
V **[[pojmy:psany|psaných]] korpusech** řady [[cnk:syn|SYN]] nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory: | * [[seznamy:strukturni_atributy_syn#struktury_korpusu_psane_cestiny|Strukturní jednotky korpusů psané češtiny]] |
* **opus** - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - tato úroveň byla užívána v korpusech [[cnk:syn2005|SYN2005]] až [[cnk:syn2013pub|SYN2013PUB]] | * [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|Strukturní jednotky korpusů mluvené češtiny]] |
* **doc** - různá platnost v různých korpusech: | * [[seznamy:strukturni_atributy_intercorp#struktury_korpusu_intercorp|Strukturní jednotky paralelních korpusů]] |
- text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - v korpusu [[cnk:syn2000|SYN2000]]; v korpusu [[cnk:syn2015|SYN2015]] a novějších | |
- v korpusech s jednotkou ''<opus>'': dokument v rámci opusů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek) | |
* **text** - v korpusech s hierarchicky nejvyšší jednotkou ''<doc>'': text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek, článek v novinách apod.) | |
* **p** - odstavec | |
* **s** - věta (//sentence//); každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) věty | |
| |
Strukturní jednotky jsou přitom vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty). | |
| |
Schematické znázornění hierarchie strukturních jednotek v korpusech řady SYN: | |
| |
^ Strukturní jednotka v SYN2000 ^ Strukturní jednotka v korpusech SYN2005 až SYN2013PUB ^ Strukturní jednotka v SYN2015 ^ | |
| ''<doc>'' | ''<opus>'' | ''<doc>'' | | |
| | ''<doc>'' | ''<text>'' | | |
| | | ''<p>'' | | |
| ''<s>'' | ''<s>'' | ''<s>'' | | |
| |
| |
Strukturní atributy se obvykle zapisují pomocí špičatých závorek, kde ''<doc>'' značí začátek jednotky, ''</doc>'' její konec a ''<doc />'' její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků. | |
| |
^ Dotaz ^ Vyhodnocení ^ | |
| ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | | |
| ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | |
| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | | |
==== Struktura korpusů mluvené češtiny ==== | |
| |
V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: | |
* **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) | |
* **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata | |
* **seg** - nižší technická jednotka členění mluveného textu, v rámci jednotek **sp** | |
| |
Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat. | |
| |
^ Dotaz ^ Vyhodnocení ^ | |
| ''[word=<nowiki>"</nowiki>ne<nowiki>"</nowiki>]</doc>'' | výskyty slova //ne// na konci sondy | | |
| ''<sp> [word=<nowiki>"</nowiki>hm<nowiki>"</nowiki>]'' | výskyty slova //hm// na začátku promluvy | | |
==== Pozice jako strukturní jednotka ==== | |
| |
Z obecného pohledu je další strukturní jednotkou i [[pojmy:pozice|pozice]], tj. nejmenší jednotka, na niž je každý text v průběhu [[pojmy:token|tokenizace]] rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o [[pojmy:atributy_pozicni|pozičních atributech]]. | Z obecného pohledu je další strukturní jednotkou i [[pojmy:pozice|pozice]], tj. nejmenší jednotka, na niž je každý text v průběhu [[pojmy:token|tokenizace]] rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o [[pojmy:atributy_pozicni|pozičních atributech]]. |
| |
===== Strukturní atributy (atributy strukturních jednotek) ===== | ===== Strukturní atributy ===== |
| |
Ke každé strukturní jednotce se váže jeden nebo víc strukturních atributů. Všechny jednotky mají standardně atribut ''id'', který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky). Např. ''<doc>'' //Sport 5. 4. 2012// v korpusu [[cnk:syn2015|SYN2015]] má následující hodnotu atributu ''id'': //id=%%"%%sp120405%%"%%//, analogicky ''<opus>'' //Lidové noviny, 28. 4. 2008// v korpusu [[cnk:syn2010|SYN2010]] má ''id=<nowiki>"</nowiki>ln080428<nowiki>"</nowiki>''. Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. ''<text>'' nebo ''<s>''), každá z nich má přitom svůj jednoznačný identifikátor. | |
| |
==== Strukturní atributy u korpusů řady SYN ==== | |
| |
=== Strukturní atributy korpusu SYN2015 a novějších === | |
| |
Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument ''<doc>''. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden ''<text>'') a dále na odstavce ''<p>'' a věty ''<s>''. Většina [[pojmy:metadata|metadat]] je vázána na atributy <doc> a <text>. Pro strukturu ''<doc>'' jsou to především tyto atributy (viz dokumentace k [[cnk:syn2015#struktura_korpusu_a_strukturni_znacky|SYN2015]]): | |
| |
* title – název dokumentu nebo periodika | |
* author – autor dokumentu | |
* issue – vydání (u periodik) | |
* publisher – vydavatel | |
* pubplace – místo vydání | |
* pubyear – rok vydání | |
* translator – překladatel | |
* [[seznamy:srclang|srclang]] – zdrojový jazyk | |
* [[seznamy:txtype_group|txtype_group]] – skupina textových typů | |
* [[seznamy:txtype|txtype]] – textový typ | |
* [[seznamy:genre_group|genre_group]] – skupina oborů/témat | |
* [[seznamy:genre|genre]] – žánr/oblast | |
* [[seznamy:med|medium]] – médium dokumentu | |
* [[seznamy:periodicity|periodicity]] – periodicita | |
* [[seznamy:audience|audience]] – cílový adresát (obecný/dětský čtenář) | |
* id – jednoznačný identifikátor | |
| |
Pro jednotku <text> je u publicistických textů k dispozici informace o rubrice v následujících atributech: | |
* [[seznamy:section|section]] – generovaný typ rubriky (u vybraných periodik) | |
* section_orig – původní název rubriky (u vybraných periodik) | |
| |
=== Strukturní atributy korpusů z let 2005 až 2013 === | |
| |
Většina strukturních atributů v korpusech [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2006pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a v korpusu [[cnk:syn|SYN]] do verze 3 je vázána na strukturní jednotku ''<opus>''. Základními strukturními atributy v korpusech psané češtiny jsou: | |
| |
* autor - autor/autoři opusu, příp. informace, že je autor nezjistitelný | |
* nazev - název opusu (hlavní titul) | |
* nakladatel - organizace, která dílo vydala | |
* mistovyd - místo vydání | |
* rokvyd - rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla) | |
* isbnissn - identifikátor ISBN, příp. ISSN | |
* preklad - překladatel díla (nejedná-li se o původně české dílo) | |
* [[pojmy:srclang|srclang]] - zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: ''srclang=<nowiki>"</nowiki><nowiki>"</nowiki>'') | |
* [[pojmy:txtype_group|txtype_group]] - makroskupina textových typů: beletrie, odborná, publicistika | |
* [[pojmy:txtype|txtype]] - typ textu (blíže určený) | |
* [[pojmy:genre|genre]] - žánr (text vymezený na základě pojednávaného tématu) | |
* [[pojmy:medium|med]] - médium (původní způsob přenosu textu) | |
* syn - atribut používaný pouze u nereferenčního korpusu [[cnk:syn|SYN]]; označuje, z jakého referenčního korpusu text původně pochází | |
| |
=== Strukturní atributy korpusu SYN2000 === | |
| |
V korpusu [[cnk:syn2000|SYN2000]] je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce ''<doc>'': | |
* opus - identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu ''id'') | |
* txtype - typ textu | |
* temp - rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu ''rokvyd'') | |
| |
Na základě jednoznačného identifikátoru ''doc.opus'' je možné zjistit všechny dodatečné informace o textu v [[seznamy:index|seznamech]] děl korpusu SYN2000. Při začlenění korpusu SYN2000 do nereferenčního korpusu [[cnk:syn|SYN]] byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem (tedy na úrovni korpusu [[cnk:syn2010|SYN2010]]). | |
| |
Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy. | |
| |
^ Dotaz ^ Vyhodnocení ^ | |
| ''[word=<nowiki>"</nowiki>ale<nowiki>"</nowiki>] within <opus autor=<nowiki>"</nowiki>Topol, Filip<nowiki>"</nowiki> />'' | všechny výskyty slova //ale// z děl Filipa Topola | | |
| ''[word=<nowiki>"</nowiki>moc<nowiki>"</nowiki>] within <opus txtype=<nowiki>"</nowiki>(PUB)<nowiki>|</nowiki>(SCI)<nowiki>"</nowiki> />'' | všechny výskyty slova //moc// v opusech označených jako publicistika a vědeckonaučná literatura | | |
| |
==== Strukturní atributy mluvených korpusů ==== | |
| |
Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). | |
| |
=== Atributy společné všem jednotlivým korpusům řady ORAL === | |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | |
| doc | id | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | | |
| | temp | rok nahrání sondy | např. ''2008'' | | |
| | pocet | počet mluvčích v sondě | ''<číslo>'' | | |
| | promluva | typ promluvy | ''N'' (neformální) | | |
| sp | num | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y'' | | |
| | pohlavi | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' | | |
| | vek | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | | |
| | veknum | věk mluvčího (číselně) | ''<číslo>'' | | |
| | vzdelani | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | | |
| | vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | | |
| | oblast | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | | |
| |
**Atributy dostupné pouze v korpusu [[cnk:oral2013|ORAL2013]]** | |
| |
^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ | |
| doc | vztah | vztah mezi mluvčími | ''{přátelskost,známost}'' | | |
| | situace | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}'' | | |
| sp | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>'' | | |
| | prekryv | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}'' | | |
| |
**Atributy dostupné ve spojeném korpusu [[cnk:oral|ORAL]]: údaje k nahrávce** | |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^ | |
| doc.id | 06H080N | identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) | ''<řetězec čísel a velkých písmen>'' | | |
| doc.month | březen | měsíc pořízení nahrávky | ''<řetězec malých písmen>'' | | |
| doc.speakers | 5 | počet všech mluvčích v nahrávce | ''<číslo>'' | | |
| doc.formality | neformální | neformální situace | ''{neformální, formální}'' | v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (''N'' pro neformální, ''F'' pro formální) | ''N'', ''F'' | |
| doc.preparedness | nepřipravená | označení, zda byl rozhovor předem připraven, či ne | ''{připravená, nepřipravená}'' | souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak | | |
| doc.audio | ne | informace, zda je k transkriptu dostupný zvuk | ''{ano, ne}''| nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano | | |
| doc.year | 2006 | rok pořízení nahrávky | | |
| doc.location | Praha | místo pořízení nahrávky | | |
| doc. relationship | přátelský | vztah mluvčích v nahrávce | ''{přátelský, znají se, neznají se}'' | pod označení přátelský jsou zařazeny i rodinné vztahy | | |
| doc.situation | návštěva | označení, za jaké situace k hovoru došlo | ''{návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě}'' a další | | |
| doc.tokens | 9008 | počet všech tokenů v nahrávce | | |
| doc.oral | 2006 | označuje korpus, z něhož nahrávka pochází | ''{2006, 2008, 2013, Z}''| | |
| doc.number | 2 | počet mluvčích v nahrávce| | |
| |
**Atributy dostupné ve spojeném korpusu [[cnk:oral|ORAL]]: údaje k mluvčímu** | |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | |
| sp.nickname | Milena_2633 | automaticky přiřazená přezdívka | | |
| sp.gender | M | pohlaví mluvčího | ''{Z'' (žena)'', M ''(muž)''}'' nebo ''Y'' | | |
| sp.edu_level | SŠ | nejvyšší dosažené vzdělání | ''{SŠ, VŠ, ZŠ}'' nebo ''Y'' | | |
| sp.age | 54 | věk mluvčího | | |
| sp.reg_current | středomoravská | nářeční oblast současného pobytu mluvčího | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' | | |
| sp.proportion | 23 % | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | | |
| sp.confederate | ne | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | ''{ano, ne}'' | | |
| sp.edu_binary | B | vzdělání mluvčího (hrubé rozlišení) | ''{A'' (altus, vysokoškolské včetně pouze započatého)'',B'' (basis, základní a středoškolské)''}'' nebo ''Y'' | | |
| sp.age_binary | I | věk mluvčího (hrubé rozlišení) | ''{I'' (iunior, mladší: cca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | | |
| sp.reg_childhood | středomoravská | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' | | |
| sp.occupation | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | ''{kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač}'' a další | | |
| sp.overlap | ano | značí, zda se promluva daného mluvčího nachází v překryvu | ''{ano, ne}'' | | |
| |
=== Atributy dostupné pro mluvené korpusy s dvouúrovňovou transkripcí === | |
| |
**Atributy pro korpus [[cnk:ortofon|ORTOFON]]** (navíc oproti spojenému korpusu ORAL) | |
| |
^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ | |
| **doc** | generations | 1 | počet generací mluvčích v nahrávce | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd. | | |
| | genders | smíšené | |''{jen ženy, jen muži, smíšené}'' | | |
| **sp** | locsize_childhood | město nad 100 tisíc | velikost sídla, kde mluvčí žil do 15 let věku | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | |
| | locsize_longest | město nad 100 tisíc | velikost sídla, kde mluvčí žil nejdelší dobu | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | |
| | locsize_current | město nad 100 tisíc | velikost sídla, kde mluvčí žije v současné době | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | | |
| | soundfile | 5/3/ef2e315f.mp3 | číslo a formát nahrávky | | |
| | id | 3784 | identifikátor segmentu (struktury sp) | | |
| | edu_field | chemické obory | obor vzdělání | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu | | |
| | occupation | sociální pracovník | | |
| | occupation_category | jiný odborný pracovník | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] | | |
| | loc_childhood | Praha | místo, kde mluvčí žil do 15 let | | |
| | reg_longest | severovýchodočeská | nářeční oblast, v níž mluvčí žil nejdéle | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | | |
| **para** | type | šeptem | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' | | |
| **pw** | - | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - | | |
| **overlap** | - | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - | | |
| **unclear** | - | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | | |
| |
| Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Všechny jednotky mají standardně atribut ''id'', který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky). |
| |
**Atributy pro korpus [[cnk:dialekt|DIALEKT]]: údaje k nahrávce** | Např. ''<doc>'' //Sport 5. 4. 2012// v korpusu [[cnk:syn2015|SYN2015]] má následující hodnotu atributu ''id'': //id=%%"%%sp120405%%"%%//, analogicky ''<opus>'' //Lidové noviny, 28. 4. 2008// v korpusu [[cnk:syn2010|SYN2010]] má ''id=<nowiki>"</nowiki>ln080428<nowiki>"</nowiki>''. Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. ''<text>'' nebo ''<s>''), každá z nich má přitom svůj jednoznačný identifikátor. |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ | Strukturní atributy podle typu korpusu jsou představeny na zvláštních stránkách. |
| doc.id | 001-C-SVC-1957-SA | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | | |
| doc.zdroj | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně, Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}'' | | |
| doc.rok | 1957 | rok pořízení nahrávky | | 195X - blíže neurčený rok v padesátých letech | | |
| doc.vrstva | stará | nářeční vrstva | ''{nová, stará}'' | | |
| doc.misto | Křečovice | místo pořízení nahrávky | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | | |
| doc.sidlotyp | městská lokalita | typ sídla | ''{městská lokalita, venkovská lokalita}'' | | |
| doc.sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | ''{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}'' | | |
| doc.stat | Česká republika | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}'' | | |
| doc.region | Čechy | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}'' | | |
| doc.noblast | středočeská | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| doc.npodskupina | jižní (slovácká) | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| doc.núsek | západní (opavský) | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| doc.ntyp | doudlebský | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| doc.okres | Domažlice | místo pořízení nahrávky - okres | | |
| doc.promluvatyp | monolog | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}'' | | |
| doc.tema | Vánoce | téma promluvy | | |
| doc.pocetml | 2 | celkový počet mluvčích v nahrávce | | |
| doc.explorator | ano | přítomnost exploratora v nahrávce | ''{ano, ne}'' | | |
| |
**Atributy pro korpus [[cnk:dialekt|DIALEKT]]: údaje k mluvčímu** | Strukturní atributy korpusů psané češtiny: |
| |
^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ | * [[seznamy:strukturni_atributy_syn##strukturni_atributy_korpusu_syn2015_a_novejsich|korpusy SYN2015 a novější]] |
| sp.id | 2533 | identifikátor segmentu (struktury sp) | | * [[seznamy:strukturni_atributy_syn#strukturni_atributy_korpusu_z_let_2005_az_2013|korpusy z let 2005 až 2013]] |
| sp.prezdivka | Dalibor_208 | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví | | * [[seznamy:strukturni_atributy_syn#strukturni_atributy_korpusu_syn2000|korpus SYN2000]] |
| sp.explorator | ano | mluvčí je/není explorátor | ''{ano, ne}'' | | |
| sp.pohlavi | M: muž | pohlaví mluvčího | ''{M: muž, Z: žena}'' | | |
| sp.rok | 1877 | rok narození mluvčího | | |
| sp.veknum | 85 | věk mluvčího v době pořízení nahrávky | | 5X - věk mezi padesáti a šedesáti lety | | |
| sp.vek | V: nad 35 let | věková kategorie užívaná v mluvených korpusech | ''{I: do 35 let, V: nad 35 let}'' | | |
| sp.vzdelanitypI | A: vysokoškolské | vzdělání - typ užívaný ve všech mluvených korpusech | ''{A: vysokoškolské, B: základní či střední}'' | | |
| sp.vzdelanitypII | ZŠ | vzdělání - typ užívaný v mluvených korpusech řady ORAL | ''{SOU, SŠ, VŠ, ZŠ}'' | | |
| sp.profese | cestář | nejdelší zaměstnání mluvčího | | |
| sp.mistonej | Stachy | místo nejdelšího pobytu mluvčího | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| | |
| sp.statnej | Česká republika | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}'' | | |
| sp.regionnej | Čechy | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}'' | | |
| sp.noblastnej | českomoravská | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| sp.npodskupinanej | severní (valašská) | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| sp.nuseknej | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| sp.ntypnej | jemnický | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| sp.mistodet | Zápy | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| | |
| sp.noblastdet | východomoravská | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | | |
| |
==== Strukturní atributy korpusu InterCorp ==== | Strukturní atributy korpusů mluvené češtiny: |
| |
V korpusech InterCorp nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory: | * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|korpus ORTOFON a spojený korpus ORAL]] |
| * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_orator|korpus ORATOR]] |
| * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_dialekt|korpus DIALEKT]] |
| * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_oral2006_oral2008_a_oral2013|korpusy ORAL2006, ORAL2008 a ORAL2013]] |
| |
* ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat) | Strukturní atributy paralelních korpusů: |
* ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu | |
* ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce | |
* ''s'' -- věta (sentence); dále je každý odstavec dělen na věty | |
| |
Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty). | * [[seznamy:strukturni_atributy_intercorp#strukturni_atributy_korpusu_intercorp|korpus InterCorp]] |
| |
Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze6?&#strukturni_atributy|verze 6]], [[cnk:intercorp:verze7?&#strukturni_atributy|verze 7]], [[cnk:intercorp:verze8?&#strukturni_atributy|verze 8]], [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]]) | |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |