AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:atributy_strukturni [2022/06/07 21:18] – [Strukturní atributy u korpusů řady SYN] jankrivanpojmy:atributy_strukturni [2022/08/25 17:17] (aktuální) jankrivan
Řádek 7: Řádek 7:
 Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi [[cnk:syn2000|SYN2000]], prvním velkým korpusem ČNK, a ostatními korpusy [[cnk:syn|řady SYN]]). Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi [[cnk:syn2000|SYN2000]], prvním velkým korpusem ČNK, a ostatními korpusy [[cnk:syn|řady SYN]]).
  
-==== Struktura korpusů psané češtiny ====+Struktury podle typu korpusu jsou představeny na zvláštních stránkách:
  
-V **[[pojmy:psany|psaných]] korpusech** řady [[cnk:syn|SYN]] nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory: +  * [[seznamy:strukturni_atributy_syn#struktury_korpusu_psane_cestiny|Strukturní jednotky korpusů psané češtiny]] 
-  * **opus** - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - tato úroveň byla užívána v korpusech [[cnk:syn2005|SYN2005]] až [[cnk:syn2013pub|SYN2013PUB]] +  * [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|Strukturní jednotky korpusů mluvené češtiny]] 
-  * **doc** - různá platnost v různých korpusech: +  * [[seznamy:strukturni_atributy_intercorp#struktury_korpusu_intercorp|Strukturní jednotky paralelních korpusů]]
-    - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - v korpusu [[cnk:syn2000|SYN2000]]; v korpusu [[cnk:syn2015|SYN2015]] a novějších +
-    - v korpusech s jednotkou ''<opus>'': dokument v rámci opusů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek) +
-  * **text** - v korpusech s hierarchicky nejvyšší jednotkou ''<doc>'': text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek, článek v novinách apod.) +
-  * **p** - odstavec +
-  * **s** - věta (//sentence//); každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) věty +
- +
-Strukturní jednotky jsou přitom vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty). +
- +
-Schematické znázornění hierarchie strukturních jednotek v korpusech řady SYN: +
- +
-^ Strukturní jednotka v SYN2000 ^ Strukturní jednotka v korpusech SYN2005 až SYN2013PUB ^ Strukturní jednotka v SYN2015 ^ +
-|  ''<doc>''  |  ''<opus>''  |  ''<doc>'' +
-| |  ''<doc>''  |  ''<text>'' +
-| | |  ''<p>'' +
-|  ''<s>''  |  ''<s>''  |  ''<s>'' +
- +
- +
-Strukturní atributy se obvykle zapisují pomocí špičatých závorek, kde ''<doc>'' značí začátek jednotky, ''</doc>'' její konec a ''<doc />'' její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků. +
- +
-^ Dotaz ^ Vyhodnocení ^ +
-| ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | +
-| ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | +
-| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | +
-==== Struktura korpusů mluvené češtiny ==== +
- +
-V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: +
-  * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) +
-  * **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata +
-  * **seg** - nižší technická jednotka členění mluveného textu, v rámci jednotek **sp** +
- +
-Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat. +
- +
-^ Dotaz ^ Vyhodnocení ^ +
-| ''[word=<nowiki>"</nowiki>ne<nowiki>"</nowiki>]</doc>'' | výskyty slova //ne// na konci sondy | +
-| ''<sp> [word=<nowiki>"</nowiki>hm<nowiki>"</nowiki>]'' | výskyty slova //hm// na začátku promluvy | +
-==== Pozice jako strukturní jednotka ====+
  
 Z obecného pohledu je další strukturní jednotkou i [[pojmy:pozice|pozice]], tj. nejmenší jednotka, na niž je každý text v průběhu [[pojmy:token|tokenizace]] rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o [[pojmy:atributy_pozicni|pozičních atributech]]. Z obecného pohledu je další strukturní jednotkou i [[pojmy:pozice|pozice]], tj. nejmenší jednotka, na niž je každý text v průběhu [[pojmy:token|tokenizace]] rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o [[pojmy:atributy_pozicni|pozičních atributech]].
  
-===== Strukturní atributy (atributy strukturních jednotek) ===== +===== Strukturní atributy =====
- +
-Ke každé strukturní jednotce se váže jeden nebo víc strukturních atributů. Všechny jednotky mají standardně atribut ''id'', který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky). Např. ''<doc>'' //Sport 5. 4. 2012// v korpusu [[cnk:syn2015|SYN2015]] má následující hodnotu atributu ''id'': //id=%%"%%sp120405%%"%%//, analogicky ''<opus>'' //Lidové noviny, 28. 4. 2008// v korpusu [[cnk:syn2010|SYN2010]] má ''id=<nowiki>"</nowiki>ln080428<nowiki>"</nowiki>''. Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. ''<text>'' nebo ''<s>''), každá z nich má přitom svůj jednoznačný identifikátor. +
- +
-==== Strukturní atributy u korpusů řady SYN ==== +
- +
-=== Strukturní atributy korpusu SYN2015 a novějších === +
- +
-Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument ''<doc>''. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden ''<text>'') a dále na odstavce ''<p>'' a věty ''<s>''. Většina [[pojmy:metadata|metadat]] je vázána na atributy <doc> a <text>. Pro strukturu ''<doc>'' jsou to především tyto atributy (viz dokumentace k [[cnk:syn2015#struktura_korpusu_a_strukturni_znacky|SYN2015]]): +
- +
-  * title – název dokumentu nebo periodika +
-  * author – autor dokumentu +
-  * issue – vydání (u periodik) +
-  * publisher – vydavatel +
-  * pubplace – místo vydání +
-  * pubyear – rok vydání +
-  * translator – překladatel +
-  * [[seznamy:srclang|srclang]] – zdrojový jazyk +
-  * [[seznamy:txtype_group|txtype_group]] – skupina textových typů +
-  * [[seznamy:txtype|txtype]] – textový typ +
-  * [[seznamy:genre_group|genre_group]] – skupina oborů/témat +
-  * [[seznamy:genre|genre]] – žánr/oblast +
-  * [[seznamy:med|medium]] – médium dokumentu +
-  * [[seznamy:periodicity|periodicity]] – periodicita +
-  * [[seznamy:audience|audience]] – cílový adresát (obecný/dětský čtenář) +
-  * id – jednoznačný identifikátor +
- +
-Pro jednotku <text> je u publicistických textů k dispozici informace o rubrice v následujících atributech: +
-  * [[seznamy:section|section]] – generovaný typ rubriky (u vybraných periodik) +
-  * section_orig – původní název rubriky (u vybraných periodik) +
- +
-=== Strukturní atributy korpusů z let 2005 až 2013 === +
- +
-Většina strukturních atributů v korpusech [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2006pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a v korpusu [[cnk:syn|SYN]] do verze 3 je vázána na strukturní jednotku ''<opus>''. Základními strukturními atributy v korpusech psané češtiny jsou: +
- +
-  * autor - autor/autoři opusu, příp. informace, že je autor nezjistitelný +
-  * nazev - název opusu (hlavní titul) +
-  * nakladatel - organizace, která dílo vydala +
-  * mistovyd - místo vydání +
-  * rokvyd - rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla) +
-  * isbnissn - identifikátor ISBN, příp. ISSN +
-  * preklad - překladatel díla (nejedná-li se o původně české dílo) +
-  * [[pojmy:srclang|srclang]] - zdrojový jazyk (nejedná-li se o původně české dílo - v tom případě tento atribut nenabývá žádné hodnoty: ''srclang=<nowiki>"</nowiki><nowiki>"</nowiki>''+
-  * [[pojmy:txtype_group|txtype_group]] - makroskupina textových typů: beletrie, odborná, publicistika +
-  * [[pojmy:txtype|txtype]] - typ textu (blíže určený) +
-  * [[pojmy:genre|genre]] - žánr (text vymezený na základě pojednávaného tématu) +
-  * [[pojmy:medium|med]] - médium (původní způsob přenosu textu) +
-  * syn - atribut používaný pouze u nereferenčního korpusu [[cnk:syn|SYN]]; označuje, z jakého referenčního korpusu text původně pochází +
- +
-=== Strukturní atributy korpusu SYN2000 === +
- +
-V korpusu [[cnk:syn2000|SYN2000]] je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce ''<doc>'': +
-  * opus - identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu ''id''+
-  * txtype - typ textu +
-  * temp - rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu ''rokvyd''+
- +
-Na základě jednoznačného identifikátoru ''doc.opus'' je možné zjistit všechny dodatečné informace o textu v [[seznamy:index|seznamech]] děl korpusu SYN2000. Při začlenění korpusu SYN2000 do nereferenčního korpusu [[cnk:syn|SYN]] byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem (tedy na úrovni korpusu [[cnk:syn2010|SYN2010]]).  +
- +
-Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy. +
- +
-^ Dotaz ^ Vyhodnocení ^ +
-| ''[word=<nowiki>"</nowiki>ale<nowiki>"</nowiki>] within <opus autor=<nowiki>"</nowiki>Diviš, Ivan<nowiki>"</nowiki> />'' | všechny výskyty slova //ale// z děl Ivana Diviše | +
-| ''[word=<nowiki>"</nowiki>moc<nowiki>"</nowiki>] within <opus txtype=<nowiki>"</nowiki>(PUB)<nowiki>|</nowiki>(SCI)<nowiki>"</nowiki> />'' | všechny výskyty slova //moc// v opusech označených jako publicistika a vědeckonaučná literatura | +
- +
-==== Strukturní atributy mluvených korpusů ==== +
- +
-Některé atributy připouštějí hodnotu ''Y'', která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci). +
- +
-=== Atributy společné korpusům ORAL2006, ORAL2008 a ORAL2013 === +
- +
-Korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]] a [[cnk:oral2013|ORAL2013]] obsahují následující strukturní atributy: +
- +
-^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ +
-| doc | id            | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>''+
-|     | temp          | rok nahrání sondy | např. ''2008''+
-|     | pocet         | počet mluvčích v sondě | ''<číslo>''+
-|     | promluva      | typ promluvy | ''N'' (neformální) | +
-| sp  | num           | číselné označení mluvčího **v rámci sondy (doc)** | od ''00'' výš (podle počtu mluvčích, přičemž ''00'' označuje mluvčího, který rozhovor nahrával); možné je i ''Y''+
-|     | pohlavi       | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y''+
-|     | vek           | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y''+
-|     | veknum        | věk mluvčího (číselně) | ''<číslo>''+
-|     | vzdelani      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y''+
-|     | vzdelanityp   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y''+
-|     | oblast        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y''+
- +
-=== Další atributy v korpusu ORAL2013 === +
- +
-Korpus [[cnk:oral2013|ORAL2013]] obsahuje navíc oproti [[pojmy:atributy_strukturni#atributy_spolecne_korpusum_oral2006_oral2008_a_oral2013|výše uvedeným]] společným tyto strukturní atributy: +
- +
-^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ +
-| doc | vztah         | vztah mezi mluvčími | ''{přátelskost,známost}''+
-|     | situace       | typ situace, v níž byla nahrávka pořízena | ''{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}''+
-| sp  | oznacenishody | jednoznačné označení mluvčího **v rámci celého korpusu** | ''<řetězec malých písmen>''+
-|     | prekryv       | nachází se tato promluva daného mluvčího v překryvu? | ''{ano,ne}''+
- +
-=== Atributy společné spojenému korpusu ORAL a korpusu ORTOFON === +
- +
-Korpusy [[cnk:oral|ORAL]] a [[cnk:ortofon|ORTOFON]] obsahují následující údaje k nahrávce: +
- +
-^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ Poznámka ^ +
-| doc.id            | 06H080N      | identifikační označení nahrávky - první dvojčíslí uvádí rok pořízení, písmeno na konci značí neformální (N) či formální situaci (F) | ''<řetězec čísel a velkých písmen>''+
-| doc.month         | březen       | měsíc pořízení nahrávky | ''<řetězec malých písmen>''+
-| doc.speakers      | 5            | počet všech mluvčích v nahrávce | ''<číslo>''+
-| doc.formality     | neformální   | neformální situace | ''{neformální, formální}'' | v korpusu ORAL se vyskytují převážně nahrávky neformální, nicméně několik nahrávek zachycuje formální situace; informace je zaznamenána na konci id nahrávky (''N'' pro neformální, ''F'' pro formální) | ''N'', ''F'' +
-| doc.preparedness  | nepřipravená | označení, zda byl rozhovor předem připraven, či ne | ''{připravená, nepřipravená}'' | souvisí se strukturním atributem doc.formality; formální hovory lze považovat za připravené a naopak | +
-| doc.audio         | ne           | informace, zda je k transkriptu dostupný zvuk | ''{ano, ne}''| nahrávky z korpusů ORAL2006 a ORAL2008 nejsou propojeny se zvukem, naopak korpusy ORAL2013 a ORAL-Z ano | +
-| doc.year          | 2006         | rok pořízení nahrávky | +
-| doc.location      | Praha        | místo pořízení nahrávky | +
-| doc. relationship | přátelský    | vztah mluvčích v nahrávce | ''{přátelský, znají se, neznají se}'' | pod označení přátelský jsou zařazeny i rodinné vztahy | +
-| doc.situation     | návštěva     | označení, za jaké situace k hovoru došlo | ''{návštěva, rozhovor doma, rozhovor u jídla doma, restaurace, oslava, posezení na zahradě}'' a další |  +
-| doc.tokens        | 9008         | počet všech tokenů v nahrávce | +
-| doc.oral          | 2006         | označuje korpus, z něhož nahrávka pochází | ''{2006, 2008, 2013, Z}''+
-| doc.number        | 2            | počet mluvčích v nahrávce| +
- +
-A následující údaje k mluvčímu: +
- +
-^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^  +
-| sp.nickname      | Milena_2633    | automaticky přiřazená přezdívka | +
-| sp.gender        | M              | pohlaví mluvčího | ''{Z'' (žena)'', M ''(muž)''}'' nebo ''Y''+
-| sp.edu_level     | SŠ             | nejvyšší dosažené vzdělání | ''{SŠ, VŠ, ZŠ}'' nebo ''Y'' |  +
-| sp.age           | 54             | věk mluvčího |  +
-| sp.reg_current   | středomoravská | nářeční oblast současného pobytu mluvčího | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' |  +
-| sp.proportion    | 23 %           | procentuální zastoupení řeči mluvčího v rámci celé nahrávky | +
-| sp.confederate   | ne             | informace, zda se daný mluvčí vyskytuje i v jiných nahrávkách | ''{ano, ne}''+
-| sp.edu_binary    | B              | vzdělání mluvčího (hrubé rozlišení) | ''{A'' (altus, vysokoškolské včetně pouze započatého)'',B'' (basis, základní a středoškolské)''}'' nebo ''Y''+
-| sp.age_binary    | I              | věk mluvčího (hrubé rozlišení) | ''{I'' (iunior, mladší: cca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y''+
-| sp.reg_childhood | středomoravská | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská, jihozápadočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská}'' nebo ''Y'' |  +
-| sp.occupation    | kvalifikovaný pracovník ve stavebnictví | specifikace zaměstnání podle klasifikace zaměstnání, viz https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco- | ''{kvalifikovaný pracovník ve stavebnictví, student, důchodce, pedagog, jiný odborný pracovník, bez zaměstnání, technik, kancelářský pracovník, prodavač}'' a další | +
-| sp.overlap       | ano            | značí, zda se promluva daného mluvčího nachází v překryvu | ''{ano, ne}''+
- +
-=== Další atributy v korpusu ORTOFON === +
- +
-Korpus [[cnk:ortofon|ORTOFON]] obsahuje kromě [[pojmy:atributy_strukturni#atributy_spolecne_spojenemu_korpusu_oral_a_korpusu_ortofon|výše uvedených]] společných navíc ještě tyto atributy: +
- +
-^ Struktura ^ Atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty ^ +
-| **doc**     | generations        | 1  | počet generací mluvčích v nahrávce  | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd.  | +
-|             | genders            | smíšené  | |''{jen ženy, jen muži, smíšené}'' +
-| **sp**      | locsize_childhood  | město nad 100 tisíc  | velikost sídla, kde mluvčí žil do 15 let věku  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' +
-|             | locsize_longest    | město nad 100 tisíc  | velikost sídla, kde mluvčí žil nejdelší dobu  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' +
-|             | locsize_current    | město nad 100 tisíc  | velikost sídla, kde mluvčí žije v současné době  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' +
-|             | soundfile          | 5/3/ef2e315f.mp3  | číslo a formát nahrávky  |   +
-|             | id                 | 3784  | identifikátor segmentu (struktury sp)  |  +
-|             | edu_field          | chemické obory  | obor vzdělání  | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu +
-|             | occupation         | sociální pracovník  |    +
-|             | occupation_category  | jiný odborný pracovník  | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] |  +
-|             | loc_childhood      | Praha  | místo, kde mluvčí žil do 15 let  | +
-|             | reg_longest        | severovýchodočeská  | nářeční oblast, v níž mluvčí žil nejdéle  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' +
-| **para**    | type               | šeptem  | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem  | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' +
-| **pw**      | -                  | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - |  +
-| **overlap** | -                  | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - |  +
-| **unclear** | -                  | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - |  +
- +
- +
-=== Atributy pro korpus DIALEKT === +
- +
-Korpus [[cnk:dialekt|DIALEKT]] obsahuje tyto údaje k nahrávce: +
- +
-^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ +
-| doc.id          | 001-C-SVC-1957-SA               | identifikační označení nahrávky - obsahuje zkratku nářeční oblasti, rok pořízení nahrávky | +
-| doc.zdroj       | Ústav Českého národního korpusu | zdroj nahrávky | ''{Soukromý sběr nahrávek, Soukromý sběr nahrávek - publikované nahrávky, Universitní sběr nahrávek - JU FF v Českých Budějovicích, Universitní sběr nahrávek - MU FF v Brně,  Ústav Českého národního korpusu, Ústav pro jazyk český AV ČR - ČJA}''+
-| doc.rok         | 1957                            | rok pořízení nahrávky | | 195X - blíže neurčený rok v padesátých letech | +
-| doc.vrstva      | stará                           | nářeční vrstva | ''{nová, stará}''+
-| doc.misto       | Křečovice                       | místo pořízení nahrávky | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov) | +
-| doc.sidlotyp    | městská lokalita                | typ sídla | ''{městská lokalita, venkovská lokalita}''+
-| doc.sidlovelikost | nad 100 tis. | místo pořízení nahrávky - velikost sídla | ''{méně než 500, nad 1 tis., nad 10 tis., nad 100 tis., nad 5 tis., nad 50 tis., nad 500}''+
-| doc.stat        | Česká republika                 | místo pořízení nahrávky - stát | ''{Česká republika, Polsko}''+
-| doc.region      | Čechy                           | místo pořízení nahrávky - region | ''{Čechy, Morava, Slezsko}''+
-| doc.noblast     | středočeská                     | místo pořízení nahrávky - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| doc.npodskupina | jižní (slovácká)                | místo pořízení nahrávky - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, žádná, západní středomoravská okrajová}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| doc.núsek       | západní (opavský)               | místo pořízení nahrávky - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), žádný, západní (opavský), západní okrajový, západočeský okrajový}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| doc.ntyp        | doudlebský                      | místo pořízení nahrávky - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, žádný, západoopavský, žďársko-bystřický, židlochovický, znojemský}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| doc.okres       | Domažlice                       | místo pořízení nahrávky - okres | +
-| doc.promluvatyp | monolog                         | typ promluvy podle dialogičnosti | ''{dialog, monolog, převážně dialog, převážně monolog}''+
-| doc.tema        | Vánoce                          | téma promluvy | +
-| doc.pocetml     | 2                               | celkový počet mluvčích v nahrávce | +
-| doc.explorator  | ano                             | přítomnost exploratora v nahrávce | ''{ano, ne}''+
- +
-A tyto údaje k mluvčímu: +
- +
-^ Strukturní atribut ^ Příklad ^ Vysvětlení ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ Poznámka ^ +
-| sp.id             | 2533                 | identifikátor segmentu (struktury sp) | +
-| sp.prezdivka      | Dalibor_208          | automaticky vygenerovaná přezdívka, ze které je patrné pohlaví | +
-| sp.explorator     | ano                  | mluvčí je/není explorátor | ''{ano, ne}''+
-| sp.pohlavi        | M: muž               | pohlaví mluvčího | ''{M: muž, Z: žena}''+
-| sp.rok            | 1877                 | rok narození mluvčího | +
-| sp.veknum         | 85                   | věk mluvčího v době pořízení nahrávky | | 5X - věk mezi padesáti a šedesáti lety | +
-| sp.vek            | V: nad 35 let        | věková kategorie užívaná v mluvených korpusech | ''{I: do 35 let, V: nad 35 let}''+
-| sp.vzdelanitypI   | A: vysokoškolské     | vzdělání - typ užívaný ve všech mluvených korpusech | ''{A: vysokoškolské, B: základní či střední}''+
-| sp.vzdelanitypII  | ZŠ                   | vzdělání - typ užívaný v mluvených korpusech řady ORAL | ''{SOU, SŠ, VŠ, ZŠ}''+
-| sp.profese        | cestář               | nejdelší zaměstnání mluvčího | +
-| sp.mistonej       | Stachy               | místo nejdelšího pobytu mluvčího | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| +
-| sp.statnej        | Česká republika      | nejdelší pobyt mluvčího - stát | ''{Česká republika, Polsko}''+
-| sp.regionnej      | Čechy                | nejdelší pobyt mluvčího - region | ''{Čechy, Morava, Slezsko}''+
-| sp.noblastnej     | českomoravská        | nejdelší pobyt mluvčího - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| sp.npodskupinanej | severní (valašská)   | nejdelší pobyt mluvčího - nářeční podskupina | ''{centrální středomoravská (hanávýchodomoravskácká), jižní (slovácká), jižní středomoravská, severní (valašská), slezskomoravská (lašská), slezskopolská, východní středomoravská, západní středomoravská okrajová, žádná}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| sp.nuseknej       | východní (ostravský) | nejdelší pobyt mluvčího - nářeční úsek | ''{českomoravský okrajový, jihočeský okrajový, jižní (frenštátský), severovýchodočeský okrajový, středočeský okrajový, východní (ostravský), západní (opavský), západní okrajový, západočeský okrajový, žádný}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| sp.ntypnej        | jemnický             | nejdelší pobyt mluvčího - nářeční typ | ''{čuhácký, dolský, domažlický (chodský), doudlebský, horský, jemnický, lounsko-litoměřický, manětínský, náchodský a kladský, nářečí kopaničářského typu, ostravický, podještědský a podkrkonošský, slavkovsko-bučovický, těšínský, východolitomyšlský, (petácký), zábřežský, západoopavský, znojemský, žádný, žďársko-bystřický, židlochovický}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
-| sp.mistodet       | Zápy                 | místo pobytu mluvčího v dětství (do 15 let) | | část obce v kulatých závorkách, např. Kamenný Újezd (Kosov)| +
-| sp.noblastdet     | východomoravská      | pobyt mluvčího v dětství (do 15 let) - nářeční oblast | ''{českomoravská, jihočeská, pohraničí české, severovýchodočeská, slezská, sředočeská, středomoravská, východomoravská, západočeská}'' | pouze hodnoty, pro které se v korpusu nachází nářeční materiál | +
- +
-=== Atributy pro korpus ORATOR ===+
  
-Korpus [[cnk:orator|ORATOR]] obsahuje tyto údaje k nahrávce:+Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Všechny jednotky mají standardně atribut ''id'', který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky). 
  
-^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ +Např. ''<doc>'' //Sport 5. 4. 2012// v korpusu [[cnk:syn2015|SYN2015]] má následující hodnotu atributu ''id'': //id=%%"%%sp120405%%"%%//analogicky ''<opus>'' //Lidové noviny28. 4. 2008// korpusu [[cnk:syn2010|SYN2010]] má ''id=<nowiki>"</nowiki>ln080428<nowiki>"</nowiki>''. Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. ''<text>'' nebo ''<s>''), každá z nich má itom svůj jednoznačný identifikátor.
-doc | id                | jednoznačný identifikátor sondy | | +
-|     | year              | rok pořízení nahrávky           | | +
-|     | location          | místo nahrávky                  | obce ČR | +
-|     | situation         | typ situace | ''ceremoniálinstruktáž, jednání, kázání, prohlídka, přednáška, slavnostní projev, školení, uvedení uměleckého díla, veřejné shromáždění, zahájení, zakončení'' +
-|     | framing           | zaměření projevu                | ''oficiální, popularizační, politické, profesní, vědecké''+
-|     | genre             | žánr projevu                    | hodnoty shodné s atributem [[cnk:klasifikace_textu_syn2015?s[]=genre|genre]] u psaných korpusů | +
-|     | audience_present  | přítomnost publika              | ''ano, ne'' +
-|     | intended_audience | jakému publiku je projev určen ''skupina, veřejnost'' +
-|     | special           | speciální příznak projevu       ''čtené, pro děti, Y'' (pro projevy bez íznaku) | +
-|     | source            | zdroj                           | ''vlastní sběr, volně dostupná nahrávka''+
-|     | speakers          | počet mluvčích v nahrávce       | | +
-|     | length            | délka nahrávky v minutách       | | +
-|     | tokens            | počet všech tokenů v nahrávce   | |+
  
-A tyto údaje k mluvčímu:+Strukturní atributy podle typu korpusu jsou představeny na zvláštních stránkách.
  
-^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty (položky jsou řazeny podle abecedy) ^ +Strukturní atributy korpusů psané češtiny:
-| sp | id          | identifikátor segmentu                                      | unikátní číslo pro každý segment | +
-|    | nickname    | přezdívka mluvčího                                          | náhodně přidělená příjmení | +
-|    | speaker_id  | číslo doplňující přezdívku mluvčího                         | stejně jako příjmení bude toto číslo stejné u každé promluvy od stejného mluvčího| +
-|    | gender      | pohlaví                                                     +
-|    | proportion  | procentuální zastoupení řeči mluvčího v rámci celé nahrávky |  | +
-|    | soundfile   | číslo a formát nahrávky                                      |+
  
 +    * [[seznamy:strukturni_atributy_syn##strukturni_atributy_korpusu_syn2015_a_novejsich|korpusy SYN2015 a novější]]
 +    * [[seznamy:strukturni_atributy_syn#strukturni_atributy_korpusu_z_let_2005_az_2013|korpusy z let 2005 až 2013]]
 +    * [[seznamy:strukturni_atributy_syn#strukturni_atributy_korpusu_syn2000|korpus SYN2000]]
  
 +Strukturní atributy korpusů mluvené češtiny:
  
-==== Strukturní atributy korpusu InterCorp ====+    * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|korpus ORTOFON a spojený korpus ORAL]] 
 +    * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_orator|korpus ORATOR]] 
 +    * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_dialekt|korpus DIALEKT]] 
 +    * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_oral2006_oral2008_a_oral2013|korpusy ORAL2006, ORAL2008 a ORAL2013]]
  
-V korpusech InterCorp nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory:+Strukturní atributy paralelních korpusů:
  
-  ''doc'' -- dokument nebo ucelený soubor textů (povídková kniha, jeden zdroj dat) +    [[seznamy:strukturni_atributy_intercorp#strukturni_atributy_korpusu_intercorp|korpus InterCorp]]
-  * ''text'' -- text v rámci dokumentů (od verze 11) +
-  * ''div'' -- text v rámci dokumentů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek); každý dokument se skládá z minimálně jednoho textu; identifikátor oddílu Bible (od verze 11) +
-  * ''p'' -- odstavec; každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) odstavce +
-  * ''s'' -- věta (sentence); dále je každý odstavec dělen na věty +
-  * ''hi'' -- řez písma +
-  * ''lb'' -- identifikátor verše (Bible) +
-Vždy přitom platí, že hranice hierarchicky vyšší jednotky neprochází středem jednotky hierarchicky nižší (např. konec dokumentu se nenachází uprostřed věty). +
  
-Atributy jednotlivých struktur se mírně liší v různých verzích (detailní popis [[cnk:intercorp:verze9?&#strukturni_atributy|verze 9]], [[cnk:intercorp:verze10?&#strukturni_atributy|verze 10]], [[cnk:intercorp:verze11?&#strukturni_atributy|verze 11]], [[cnk:intercorp:verze12?&#strukturni_atributy|verze 12]], [[cnk:intercorp:verze13?&#strukturni_atributy|verze 13]]) 
  
 ==== Související odkazy ==== ==== Související odkazy ====