====== Specifika vyhledávání v mluvených korpusech: řada ORAL ====== Vyhledávání v mluvených korpusech neprobíhá bezprostředně v originálních datech, jak je tomu u korpusů psaných,((Byť i u psaných korpusů je potřeba uvážit jistou míru zprostředkovanosti -- [[pojmy:segmentace#segmentace|tokenizace]] a [[pojmy:segmentace#segmentace_vetna|větná segmentace]], [[pojmy:tag|značkování]] -- ovšem nesrovnatelně menší.)) ale v **transkriptu** zvukové nahrávky. Jedná se tedy o určitou interpretaci "zvukové" skutečnosti zachycené v nahrávkách. Pro dosavadní [[cnk:struktura#korpusy_mluvene|mluvené korpusy]] vznikal transkript z audionahrávek, tzn. že přepisující ani badatel nemají k dispozici další doprovodné jevy nezbytně doplňující mluvený projev "tváří v tvář", jako je např. mimika a gestikulace. Pravidla přepisu vycházejí vždy z určitého kompromisu mezi zachycením detailů a relativní jednoduchostí vyhledávání. Příliš podrobný transkript také stírá výhody korpusového přístupu, neboť se pak vzhledem k omezenému rozsahu mluvených dat zvyšuje podíl jevů, které jsou doloženy jen v jednotkách výskytů, a nelze je tudíž kvantitativně interpretovat. V případě [[cnk:oral|řady ORAL]] se navíc způsob transkripce snažil navázat na pravidla aplikovaná v [[cnk:pmk|PMK]]. Postupně však docházelo ke změnám, které si vyžádalo zaznamenávání neformální spontánní konverzace a které byly lépe zachytitelné a kontrolovatelné při použití transkripčního programu (sondy pro [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|2008]] byly přepisovány pouze v textovém editoru bez spojení se zvukem, čímž byla následná kontrola ztížená). K těmto omezením musí tedy badatel při volbě svých témat přihlížet. Nicméně se domníváme, že mluvené korpusy neformální konverzace představují nejautentičtější zachycení prototypického jazyka. Nahrávky jsou pořizovány v prostředí přirozeném jak pro mluvčí, tak pro jejich komunikační partnery. Přirozená je pro obě strany i samotná komunikační situace, protože se navzájem znají. To vše značně přispívá k neformálnosti a spontánnosti komunikace. Na druhé straně se zde projevuje určitá omezenost témat a s tím související "chudost" slovní zásoby ve srovnání s psaným korpusem. Mluvčí byli postupně nahráváni po celém území republiky a k jejich charakteristice kromě pohlaví, věku a vzdělání patří i zařazení do nářeční oblasti, ve které pobývali v dětství. Tradiční dialektologické dělení (Bělič, 1972), převzaté pro potřeby korpusů řady ORAL, je zobrazeno v následující mapě. [{{kurz:mapa_narecnich_oblasti_legenda_bez_cisel.jpg?direct&600| Dělení na nářeční oblasti platné v korpusech řady ORAL.((Hranice oblastí jsou stanoveny na základě: BĚLIČ J. Nástin české dialektologie. Praha : Státní pedagogické nakladatelství, 1972.))}}] ===== Rozdíly ve značení textu v mluveném a psaném korpuse ===== U psaného korpusu se doplňující informace týkají především díla samotného -- textu, jeho členění, roku vydání atp. U mluveného textu (transkriptu) máme základní informace o jeho autorovi (mluvčím) (viz [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|strukturu]]). Transkript je ve všech mluvených korpusech členěn podle replik jednotlivých mluvčích; pouze korpus [[cnk:oral2013|ORAL2013]] zachycuje i souběžnou mluvu dvou mluvčích, tzv. „překryvy“, a dělí repliky na menší části, tzv. segmenty, které jsou spojeny se zvukem a lze je přehrát. V následujícím textu chceme upozornit na odlišnosti při vyhledávání v psaném a v mluveném jazyce a na [[#strucna_charakteristika_transkripce_korpusu_rady_oral|odlišnosti transkripce jednotlivých korpusů řady ORAL]], jejichž neznalost by mohla způsobit špatnou interpretaci nalezených výsledků. Vyhledávání v mluvených korpusech je v hlavních obrysech stejné jako u psaných korpusů série [[cnk:syn|SYN]] (stejné základní [[manualy:kontext:novy_dotaz#typy_dotazu|dva typy dotazů]], stejný dotazovací jazyk [[pojmy:dotazovaci_jazyk|CQL]]); pokud jste v korpusu nikdy nehledali, projděte si tedy prosím nejprve [[kurz:prvni_dotaz|rychlokurz v dotazování]], zbytek textu předpokládá jeho znalost. V některých ohledech se ale způsob vyhledávání liší, a to zejména v těchto: - v mluvených korpusech je **větší variabilita forem** -- existují různé transkripční varianty stejného slova, nářeční varianty (//sme -- zme//) apod., - mluvené korpusy převážně nedisponují [[pojmy:lemma|lemmatizací]] a [[pojmy:tag|morfologickým značkováním]] (varianty //sme -- zme// tedy nejde dohledat pomocí kombinace lemmatu //být// a značky odkazující k 1. os. mn. č. přítomného času, ale pouze zadáním konkrétní formy, tedy buď //sme//, anebo //zme//), - mají jinou [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|strukturu]] (viz též [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|vertikála mluveného korpusu]]) a obsahují jiné [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|atributy/metainformace]], - z povahy materiálu vyplývá, že je o něco složitější zorientovat se v konkordanci. Nástrahám způsobeným body 1 a 2 se věnujeme v oddíle [[#Jak správně zadat hledané „slovo“]], bodu 3 v oddíle [[#Cílenější vyhledávání a pokročilejší dotazy]] a bodu 4 v oddíle [[#Orientace v konkordanci]]. ====== Jak správně zadat hledané „slovo“ ====== Jak již bylo řečeno, korpusy mluveného jazyka většinou nedisponují lemmatizací. Zároveň se v nich tvary některých lexémů vyskytují v mnoha variantách zápisu, které se snaží zohlednit různá specifika konkrétní realizace (převážně nářeční). Při specifikaci hledaného slovního tvaru je tedy namístě co nejvyšší obezřetnost, aby zadaný dotaz pokryl skutečně [[#Stručná charakteristika transkripce korpusů řady ORAL|všechny možné transkripční varianty]] toho, co chcete vyhledat (tj. aby byl co nejvyšší [[pojmy:precision#Recall|recall]]). Zajímá-li nás například lexém jako celek, ne jen jeden tvar z jeho paradigmatu, je potřeba **ručně** ošetřit vyhledávání **různých tvarů v rámci paradigmatu** (a to **včetně nářečních, nespisovných variant**, které se v přepisech také mohou vyskytnout). Dokonce i pokud nás zajímá pouze jedna položka z paradigmatu, musíme uvážit, že může mít různé varianty, srov. //jsou -- sou -- sú -- só//. Nejjednodušší způsob, jak tohoto dosáhnout, je přepnout v rozhraní KonText na **Pokročilý dotaz** a zadat dotaz v následujícím tvaru: ''[word=%%"%%jsou|sou|sú|só%%"%%]'' Když do uvozovek zadáte **seznam variant** oddělený pomocí svislítka ([[kurz:regularni_vyrazy#dalsi_specialni_symboly|OR]]), KonText bude jako cílové slovo brát **kteroukoli z nich**. Znalost [[pojmy:regularni_vyrazy|regulárních výrazů]] umožňuje i úspornější zápis než seznam celých forem oddělených svislítky.((Výše uvedený dotaz tak např. lze také zapsat jako ''[word=%%"%%j?sou|s[úó]%%"%%]''.)) ===== Stručná charakteristika transkripce korpusů řady ORAL ===== Pro všechny mluvené korpusy řady [[cnk:oral|ORAL]] platí obecná zásada, že přepis zachycuje všechny verbální projevy a snaží se co nejvíce přiblížit tradičnímu zápisu podle pravopisu, ale ustálené podoby běžné mluvy a regionální prvky zachycuje bez ohledu na pravopis. Následující tabulka srovnává **transkripci** jazykových jevů: ^ Pojmenování jevu ^ ORAL2006 ^ ORAL2008 ^ ORAL2013 ^ | **ustálená zjednodušená výslovnost** | //pudu, vemu, výde, pocem, dyž, neska, ňák, ďáli, štyry/štyři/čtyry/čtyři, pošta/počta, myslím/myslim/mysim//((Toto není ani zdaleka vyčerpávající výčet; zejména pokud hledáte frekventovaná/výplňková slova (//protože//, //vlastně// atp.), důrazně doporučujeme nahlédnout do pravidel pro přepis korpusů [[http://ucnk.ff.cuni.cz/ORAL2006pravidla.php|ORAL2006]], [[http://ucnk.ff.cuni.cz/ORAL2008pravidla.php|ORAL2008]] a {{:cnk:prepisovaci_pravidla_oral2013.pdf|ORAL2013}}, zda se v nich nepočítá s různými variantami.)) ||| | **zápis bez ohledu na výslovnost** | zdvojené hlásky, předpona **roz-**, souhláskové skupiny:\\ //každodenní, rozsvítit, rozzlobit, pražští, hřbitov// ||| | **slova začínající j-** | dle výslovnosti:\\ //(j)sem, (j)méno, (j)estli// ||| | **protetické v** | dle výslovnosti:\\ //vokno, von// ||| | **předpona vz- a souhláskové skupiny** | dle pravopisu:\\ //vzbudit, vzpomenu// || dle výslovnosti:\\ //vzbudit/zbudit, vzpomenu/spomenu// | | **nářeční varianty** | dle výslovnosti:\\ //kameň, perkýnko, strejdoj, zme, zrouna, vo našom, nélepší// ||| | **souhlásková skupina šť** | dle výslovnosti:\\ //ještě/ešče// ||| | **asimilace znělosti** | pravidelné jevy bez variant se zapisují dle pravopisu:\\ //dub, sbírat// ||| | - **před R L M N Ň J** | dle pravopisu:\\ //s máslem// | dle výslovnosti:\\ //s máslem/z máslem, kupme/kubme// | dle výslovnosti:\\ //s máslem/z máslem, kupme/kubme, kvůli/gvůli// | | - **skupina sh-** | dle pravopisu:\\ //shoda// | dle výslovnosti:\\ //schoda/zhoda// || | **asimilace místa tvoření** | dle pravopisu:\\ //rozčesat, sčítat// || dle výslovnosti:\\ //roščesat//((S výjimkou asimilace místa tvoření zachováváme předponu roz-, viz výše)), //ščítat// | | **hranice slov** | respektují se:\\ //pod čepicí// (**NE** //počepicí//), //to jo, no no// ||| | **kvantita** | zachycuje se **krácení** v koncovkách i základech slov:\\ //rohlik, vim, žensky (=ženský)// ||| | | zachycuje se **dloužení** v koncovkách i základech slov, vč. emfatického dloužení:\\ //klucí, volál, sebú, bóže// ||| | **komparativ a superlativ** | dle pravopisu:\\ //novější, pěknější, vlasatější// || moravské realizace s dlouhým **ě** zapisujeme jako kombinaci **j** + **é**:\\ //novjéši, pěkňéši, vlasaťéši// | | **zkratky** | dle výslovnosti: pokud jako jedno slovo, píše se jako jedno slovo; pokud zvlášť, píše se zvlášť:\\ //dé vé dé/dý ví dý/dývídýčko, aids, ú es á// ||| | **neznámá X** | zápis //iks//:\\ //po iks letech// ||| | **velká písmena** | u vlastních jmen dle pravopisu ||| | **cizí slova** | dle pravopisu:\\ //software// ||| | **hezitace** | zvuky spíše souhláskové se zapisují:\\ //hmm//((Vždy pouze 3 písmena.)) || zvuky spíše souhláskové se zapisují:\\ //mmm// | | | zvuky spíše samohláskové se zapisují:\\ //eee// ||| | **responzní zvuky** | viz **hezitace** || spíše přitakávací zvuky:\\ //hmm// | | | viz **hezitace** || spíše nesouhlasné, odporovací zvuky:\\ //emm// | | **verbalizovaný smích** | zápis dle slyšeného:\\ //haha/ha ha, chichi/chi chi// ||| Následující tabulka vysvětluje užívání **značek** a **symbolů**: | ^ ORAL2006 ^ ORAL2008 ^ ORAL2013 ^ | **nedořečené, neúplné slovo** | značí se hvězdičkou (*):\\ //koč*, *ková nekázeň// ||| | | pokud za nedořečeným slovem následuje totéž slovo dořečené, **neoddělují** se čárkou:\\ //koč* kočka// ||| | | pokud za nedořečeným slovem následuje jiné slovo, **oddělují** se čárkou:\\ //přijde zít*, pozítří// || **neoddělují** se:\\ //přijde zít* pozítří// | | **příklonné s** | neznačí se || značí se *s:\\ //dělala *s// | | **nesrozumitelný úsek** | značí se %%---%% ||| | **neukončené promluvy** | značí se ...:\\ //mysim že budu mít co dělat abych ...:// ||| | **přerušení promluvy** | značí se ... na začátku i konci přerušené promluvy:\\ mluvčí 1: //sjedeš z toho kopce přejedeš ...//\\ mluvčí 2: //no//\\ mluvčí 1: //... přejedeš řeku// ||| | **poznámka, vysvětlivka v přepisu** | zapisuje se do kulatých závorek ():\\ //(smích) (cizojazyčný projev) (odmlčení)//((Tj. výrazně dlouhá pauza.)) ||| Poslední tabulka srovnává používanou **interpunkci**: | ^ ORAL2006 ^ ORAL2008 ^ ORAL2013 ^ | **typ interpunkce** | větná((Dle psaného jazyka.)) || pauzová((Je nezávislá na psaném jazyce, značí se v ní realizované pauzy.)) | | **tečka (.)** | označuje konec promluvy || tečka (.) značí **kratší** pauzu:\\ //sem mu řek že . nevim// | | | || dvě tečky (..) značí **střední** pauzu:\\ //no jo .. a co je eště novýho// | | **čárka (,)** | dle psaného jazyka:\\ //vona byla ještě svobodná , když tam byla , nebo už vdaná ?// || neužívá se | | | pokud za nedořečeným slovem následuje jiné slovo:\\ //přijde zít*, pozítří// || | | | neznačí se | u přerušení, změn větné perspektivy:\\ //támhleto vem* , vem* , támhleto vemte// | | | | neznačí se | při opakování stejných slov:\\ //to já nevim , nevim// | | | **otazník (?)** | v otázkách a v případě tázací intonace:\\ //to je kdo ?// ||| | **vykřičník (!)** | v případě zvolací intonace:\\ //jéžiš , já sem blbej !// ||| | **spojovník (-)** | zápis dle pravopisu (natěsno, bez mezer):\\ //e-mail, au-pair, bylo-li// ||| | **přímá řeč (%%""%%)** | neznačí se | značí se %%"%%...%%"%%:\\ //řekl sem : %%"%% prosim ? %%"%%// | neznačí se | Více informací lze nalézt v zásadách přepisu pro [[http://ucnk.ff.cuni.cz/ORAL2006pravidla.php|ORAL2006]] a [[http://ucnk.ff.cuni.cz/ORAL2008pravidla.php|ORAL2008]]. Pro více detailů o přepisu nahrávek pro ORAL2013 viz detailní {{:cnk:prepisovaci_pravidla_oral2013.pdf|pravidla přepisu}}. ===== Anonymizační značky ===== Kvůli anonymitě byly v přepisech kódovány všechny citlivé údaje (zejména příjmení). Toto pravidlo se netýká jmen známých osob (herců, politiků, sportovců apod.). V případech, kdy si přepisující nebo nahrávaní nepřáli zveřejnit další údaje (např. místní jméno, křestní jméno, název firmy, telefonní číslo), byly kódovány i tyto údaje. Následující tabulka uvádí seznam anonymizačních zkratek s jejich vysvětlením: ^ Anonymizační značka ^ Vysvětlení ^ | NP | příjmení | | NJ | křestní jméno | | NN | přezdívka | | NM | místní jméno | | NO | ostatní vlastní jména | | NX | jiný citlivý údaj | ====== Cílenější vyhledávání a pokročilejší dotazy ====== Někdy může být žádoucí omezit vyhledávání pouze na korpusové pozice, které odpovídají jistým podmínkám, např. nás mohou zajímat výskyty daného slova pouze v místech, kde mluví víc lidí přes sebe (tzv. překryvy) či v projevech mladších mluvčích. Některé tyto podmínky lze jednoduše "naklikat" pomocí grafického rozhraní manažeru KonText, jiné je potřeba zadat "ručně" v dotazovacím jazyce CQL. ===== Jednoduše dostupné funkce – grafické rozhraní KonText ===== ==== Specifikace kontextu ==== Jednou z charakteristik mluveného jazyka je i rozvolněnější syntax a kombinatorika lexikálních jednotek vůbec -- zvlášť pokud mluvčí váhá, má tendenci řadit jednotky tak, jak ho napadají, aby si udržel mluvní aktivitu, a na pravidla větné skladby či obvyklou posloupnost prvků ve víceslovných celcích tolik nedbat. Základní dotazy vycházejí z pevného pořadí hledaných slov (tj. připouštějí jen jednu linearizaci), někdy může ovšem být výhodné zadat, že se jisté slovo má nacházet v okolí jiného slova, ne nutně přímo nalevo či napravo. Přesně toto KonText umožňuje, a to buď [[manualy:kontext:novy_dotaz#Specifikovat kontext|podmíněním kontextu přímo při zadávání dotazu]], nebo dodatečným [[manualy:kontext:filtr|filtrováním konkordance]] (jde o dvě cesty k témuž výsledku). Např. bychom mohli chtít dohledat výskyty slova //to//, které v okolí ±5 pozic obsahují kterékoli ze slov //teda//, //jo//, //ne// nebo //fakt//: [{{ :kurz:kontext_kontext.png?direct&700 | Specifikace kontextu v rozhraní KonText }}] Ve výsledné konkordanci budou výskyty kontextově požadovaných slov zvýrazněné, což usnadní jejich identifikaci: [{{ :kurz:kontext_filtr.png?direct | Konkordance s použitím specifikace kontextu/filtrování}}] ==== Omezení hledání ==== KonText také umožňuje [[manualy:kontext:novy_dotaz#omezit_hledani|omezit vyhledávání]] pouze na promluvy mluvčích, jejichž metainformace (věk, pohlaví apod.) splňují jistá kritéria. V zaklikávacím menu jsou dostupné metainformace ''sp.pohlavi'', ''sp.vek'', ''sp.vzdelani'', ''sp.vzdelanityp'' a ''sp.oblast'' (viz též [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|přehled metainformací v korpusech mluveného jazyka]]); ostatní metainformace lze specifikovat pouze pomocí dotazu v jazyce CQL (viz níže). Např. dotaz specifikovaný podle obrázku níže se bude vyhledávat pouze v promluvách (resp. strukturách ''''), které pronesla žena (''Z'') starší 35 let (''V'') základního nebo středoškolského vzdělání (''B'') ze středočeské či česko-moravské nářeční oblasti. [{{ kurz:kontext_metainformace.png?direct&600 | Výběr textů v rozhraní KonText }}] ===== CQL ===== Jazyk CQL nabízí při prohledávání některé možnosti, které v rozhraní KonText jednoduše "naklikat" nejdou (nezapomeňte si při tom přepnout na správný [[manualy:kontext:novy_dotaz|typ dotazu]]). Pro zadávání takovýchto složitějších dotazů je nutné mít představu o tom, jak je korpus [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|strukturován]], zejména jak je lineárně reprezentován v tzv. [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|vertikále]]. Než se pustíte do dotazů v jazyce CQL v rámci korpusů mluveného jazyka, projděte si [[kurz:pokrocile_dotazy|lekci v Kurzu práce s ČNK]], kde si tento typ dotazů osvojíte na psaných korpusech. Pokud si potřebujete strukturu mluvených korpusů jen osvěžit, následuje rychlý přehled. Mluvené korpusy se člení na struktury '''', které představují jednotlivé sondy (ucelené rozhovory v rámci jedné komunikační situace), a ty jsou dále rozdělené na struktury ''''. V korpusech ORAL2006 a ORAL2008 představuje jednotka '''' ucelenou promluvu jednoho mluvčího, v korpusu ORAL2013 jsou z technických důvodů hranice '''' i v místech, kde dochází k překrývání mluvčích, a neexistuje jednoduchý způsob, jak určit, která hranice '''' je lingvisticky relevantní (tj. představuje skutečný začátek/konec promluvy) a která je pouze technickou nutností. V následujícím textu při odkazování na struktury v mluvených korpusech systematicky rozlišujeme tyto tři možnosti: * '''' (bez lomítka) značí **začátek** struktury (viz CQL dotaz '' [word=%%"to"%%]'', který dohledá výskyty tvaru //to// následující bezprostředně po začátku struktury) * '''' (s lomítkem **před** ''sp'') značí **konec** struktury (viz CQL dotaz ''[word=%%"to"%%] '', který dohledá výskyty tvaru //to// bezprostředně předcházející konci struktury) * '''' (s lomítkem **po** ''sp'') odkazuje k celé struktuře, tj. veškerému obsahu (promluvě) mezi dvěma následnými značkami '''' a '''' (viz CQL dotaz ''[word=%%"to"%%] within '', který dohledá výskyty tvaru //to// v rámci struktur '''', jejichž strukturní atribut ''sp.prekryv'' má hodnotu ''%%"ano"%%'') Představme si následující útržek konverzace: mluvčí 01 říká //ale já zítra nepřijdu//, mluvčí 02 mu souběžně se slovem "zítra" přitaká //hmm// a mluvčí 03 již souběžně se slovem "zítra" naváže větou //a proč ne ?//. V korpusech ORAL2006 nebo ORAL2008 by přepis mohl vypadat následovně: | **mluvčí 01** | ''''//ale já zítra nepřijdu//'''' | | | | **mluvčí 02** | | ''''//hmm//'''' | | | **mluvčí 03** | | |''''//a proč ne ?//'''' | Po překryvech, které byly v popisu situace naznačené, zde není stopy; slova pronesená jednotlivými mluvčími jsou seskupená do souvislých promluv. Naproti tomu v korpusu ORAL2013 by reprezentace dialogu vypadala takto (atribut ''sp.prekryv'' značí, zda je daná struktura '''' součástí překryvu): | **mluvčí 01** | ''''//ale já//'''' | ''''//zítra//'''' | ''''//nepřijdu//'''' | | **mluvčí 02** | | ''''//hmm//'''' | | | **mluvčí 03** | | | ''''//a proč ne ?//'''' | Jak vidno, zatímco cílem korpusů ORAL2006 a ORAL2008 je přetavit dialog do jedné linie promluv, ORAL2013 se již snaží zachytit onen poměrně typický jev, kterým je mluva více účastníků konverzace najednou (byť s jistými omezeními: **překrývat se mohou vždy jen projevy právě dvou mluvčích**). Detailněji se tématu věnuje oddíl [[#Orientace v konkordanci]]. V příkladech níže jsou ''X'' či ''Y'' zástupnými symboly pro jakýkoli validní dotaz jazyka CQL, např. ''[word=%%"to"%%]'', pokud chceme vyhledat slovní tvar //to//. ==== Souvýskyt bez ohledu na pořadí ==== Kromě funkcí pro [[#Specifikace kontextu|specifikaci kontextu]], resp. [[manualy:kontext:filtr|filtrování]], které jsou pohodlně zabudované do rozhraní KonText, lze pro účely vyhledání souvýskytu slov bez ohledu na pořadí používat i operátory [[pojmy:meet]] a [[pojmy:union]] jazyka CQL. Dotaz ''(meet %%"to"%% %%"teda"%% -1 2)''((Pro zkrácení zápisu zde předpokládáme, že je v KonTextu zadaný implicitní atribut ''word'', jinak by dotaz pochopitelně musel znít ''(meet [word=%%"to"%%] [word=%%"teda"%%] 0 2)''.)) vyhledá výskyty //to//, jimž bezprostředně předchází (levý kontext ''-1'') nebo na něž v jedné ze dvou následných pozic navazuje (pravý kontext ''2'') slovo //teda//. Výše uvedený příklad na specifikaci kontextu bychom s pomocí //meet// mohli přepsat jako ''(meet %%"to"%% %%"teda|jo|ne|fakt"%% -5 5)''. Operátor ''union'' pak slučuje množiny výsledků definované pomocí jednotlivých operátorů ''meet'' do jedné konkordance, v důsledku čehož jsou tyto operátory v jistém ohledu flexibilnější než specifikace kontextu pomocí filtru, neboť umožňují vyhledávat libovolné množství arbitrárních dvojic s různými požadavky na kontextovou blízkost. Na druhou stranu ovšem ve výsledné konkordanci chybí zvýraznění kontextově podmíněných slov, takže pokud vysloveně zmíněnou flexibilitu nepotřebujete, je pohodlnější (z hlediska zadávání dotazu i následné analýzy) použít specifikaci kontextu pomocí filtru popsanou výše. ==== Zúžení prohledávaných struktur podle metainformací ==== Množinu struktur (''doc'' nebo ''sp'', viz [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|Struktura korpusů mluvené češtiny]]), které budou v rámci dotazu prohledány, lze omezit tím, že specifikujeme, jakých hodnot musí, nebo naopak nesmějí některé atributy těchto struktur nabývat (atributy, s nimiž lze v korpusech řady ORAL pracovat, jsou shrnuty [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zde]]). K tomu slouží operátory [[pojmy:within]] nebo [[pojmy:containing]]. Oba operátory se liší pouze syntaxí -- ''X within Y'' je totéž co ''Y containing X'' -- a [[pojmy:containing#vysledek|způsobem zobrazení výsledné konkordance]]. Obecný úvod do problematiky podmínek ''within'' je k dispozici [[kurz:subkorpusy#Podmínky within – hledání v rámci určitých struktur|v jedné z předchozích lekcí]]; zde se omezíme na pár příkladů využívajících struktury a atributy korpusů mluveného jazyka. Mohli bychom chtít hledat např.: * v blízkosti míst střídání mluvčích (struktura ''''): * začátek promluvy: '' X'' * konec promluvy: ''X '' V korpusu ORAL2013 tyto dotazy odpovídají i místům, kde jsou z technických důvodů umístěny hranice struktur '''' kvůli záznamu překryvů (viz [[#CQL|výše]]), které bohužel nelze nijak jednoduše odlišit od skutečných začátků/konců promluv. * v překryvu((Atribut ''sp.prekryv'' je k dispozici pouze v korpusu ORAL2013.)): ''X within '' * pouze u starších mluvčích z Moravy a Slezska (lze i "naklikat" v novém dotazu v KonTextu): ''X within '' * pouze u mluvčích se základním vzděláním (v KonTextu "naklikat" nelze, neboť atribut ''sp.vzdelanityp'' není součástí menu): ''X within '' * u mluvčích starších 30 let: ''X within '' * atributy jsou vždy uložené jako řetězce znaků, nelze s nimi tedy pracovat jako s čísly (dotazy typu ''X within =30 />'' nejsou možné) * specifikace věku je založena na [[pojmy:regularni_vyrazy|regulárním výrazu]]: * ''1?'': na začátku může, ale nemusí být ''1'' (pro případ, že by v korpusu byli mluvčí starší sta let) * ''[3-9]'': následující znak (= desítky) může být kterákoli číslice mezi ''3'' a ''9'' * ''\d'': poslední znak (= jednotky) může být kterákoli číslice Přesnou syntax pro zadání podmínky ''within'' není nutné znát zpaměti, pokud je v KonTextu zvolen typ dotazu CQL, je k dispozici pomůcka, která vám ji pomůže vložit: [{{ :kurz:kontext_vlozit_within.png | Pomůcka rozhraní KonText pro vložení podmínky ''within''. }}] ==== Hledání sekvencí slov ==== Pokud hledáte víceslovnou sekvenci, většinou dotaz spadá do jedné ze dvou kategorií: - buď má jít o ucelenou konstrukci, kterou pronesl jeden mluvčí, - nebo se jedná o sekvenci, která se typicky objevuje v místě střídání mluvčích Není běžné, že by bylo z hlediska lingvistické analýzy lhostejné, zda celou sekvenci pronesl mluvčí jeden, či zda v jejím průběhu došlo k prostřídání. Při znalosti členění mluvených korpusů na struktury '''', které ohraničují promluvy jednotlivých mluvčích, nás tedy může napadnout následující řešení (''X'' a ''Y'' zde značí vyhledávanou sekvenci slov): - ''X Y within '' - ''X Y'', tj. takové ''X'' a ''Y'', mezi nimiž se vyskytuje strukturní značka začátku nové promluvy Takto jednoduše ovšem postup platí pouze u korpusů ORAL2006 a ORAL2008, kde nejsou zachyceny překryvy. Jak bylo popsáno [[#CQL|výše]], v korpusu ORAL2013 jsou z technických důvodů projevy dvou mluvčích, kteří se společně účastní jednoho překryvu, vyčleněny do samostatných promluv. '''' se tedy může vyskytnout i tam, kde jeden mluvčí pokračuje v předchozí promluvě, jen mu paralelně do řeči skočí další mluvčí. Představme si následující dialog: | **mluvčí 00** | hele to fakt | nevim | | | **mluvčí 01** | | ale | nekecej | Z hlediska jazykového jde o dvě promluvy dvou mluvčích, leč ve vertikále budou reprezentovány čtyřmi strukturami '''' (pro jednoduchost vynecháváme některé atributy, úplnější příklad vertikály mluveného korpusu lze nalézt [[pojmy:struktura_korpusu#vertikala_korpusy_mluveneho_jazyka|zde]]): hele to fakt nevim ale nekecej V tomto příkladu je sekvence //fakt nevim// součást jedné promluvy mluvčího 00, ale dotazem ''[word=%%"%%fakt%%"%%] [word=%%"%%nevim%%"%%] within '' bychom tento výskyt nedohledali, neboť obě slova nejsou součástí jedné struktury '''' a podmínka ''within'' tak není splněná. Naopak by nám tento výskyt falešně spadl do druhé kategorie, neboť mezi //fakt// a //nevim// je značka ''''. První problém bohužel nijak řešit nelze, druhý ano -- za cenu toho, že spolu s odfiltrovanými falešnými výsledky přijdeme i o některé správné kandidáty (snížíme [[pojmy:precision#Recall|recall]] a zvyšíme [[pojmy:precision|precision]]): ''X Y'' Tímto zajistíme, že X a Y náleží do dvou různých struktur '''', které zároveň nejsou součástí překryvu, takže na jejich švu skutečně musí docházet k vystřídání mluvčích. Zároveň tím ale pochopitelně přijdeme o všechny případy, kde ke střídání dochází s překryvem. Jinými slovy, toto na základě výše uvedeného dotazu najdeme: | **mluvčí 00** | ... X | | | **mluvčí 01** | | Y ... | a toto již ne: | **mluvčí 00** | ... | X | | | **mluvčí 01** | | Y | ... | ====== Orientace v konkordanci ====== Jak již bylo zmíněno v úvodu, z povahy materiálu vyplývá, že zorientovat se v konkordančních řádcích z mluveného korpusu bývá těžší než u korpusu psaného, ať už kvůli střídání mluvčích, syntaktické a tématické roztříštěnosti, velké závislosti promluv na sdíleném kontextu, který nelze badateli jednoduše zprostředkovat, nebo kvůli tomu, že přepis je při nejlepší vůli jen značně ochuzeným odrazem původní promluvy a některé lingvisticky relevantní a pro porozumění důležité informace v něm mohou chybět (intonace, detailní temporální struktura promluvy, která může naznačovat např. váhání, apod.). Obecně platí, že je dobrý nápad v [[manualy:kontext:zobrazeni#obecne_volby_zobrazeni|obecných volbách zobrazení]] rozšířit kontext [[pojmy:kwic|KWIC]] na větší počet [[pojmy:pozice|pozic]], aby bylo možné si promluvu zasadit do širšího rámce. K témuž účelu poslouží kliknutí na KWIC, které vám zobrazí okénko s delším kusem dialogu. Pro lepší orientaci ve struktuře dialogu je lepší přepnout toto rozšířené okno z **Výchozího zobrazení** na **Promluvy** (viz obrázek). Každý mluvčí je barevně odlišen a jeho promluvu je možné si pustit pomocí symbolu reproduktoru. Toto zobrazení také umožňuje lepší přehled o překryvech, kterou jsou signalizovány spojením obou mluvčích pomocí +. [{{ :kurz:dialog_mluv.png?direct | Zobrazení promluv a překryvu v dialogu}}] ===== Návaznost replik a přehrávání zvuku ===== ==== ORAL2006 a ORAL2008 ==== Jak jsme si řekli [[#CQL|výše]], byla v přepisu pro korpusy ORAL2006 a ORAL2008 snaha překrývající se repliky více mluvčích "rozplést" do samostatných ucelených promluv. Když se takový přepis zobrazí linearizovaný do jednoho konkordančního řádku, mělo by tedy být možné jej číst relativně pohodlně. Aby bylo možné určit hranice promluv jednotlivých mluvčích, je ovšem nutné v [[manualy:kontext:zobrazeni#pozicni_atributy|zobrazení atributů, struktur a metainformací]] zaškrtnout zobrazení struktury '''', která tyto hranice značí. Je dobré zde rovnou zaškrtnout též poziční atribut ''sp.num'', který umožní odlišit v rámci sondy jednotlivé mluvčí. [{{ :kurz:strukt_sp_num.png?direct | Volba zobrazení struktury '''' a strukturního atributu ''sp.num''}}] Zobrazení konkordance pak vypadá následovně: [{{ :kurz:konk_with_sp_num.png?direct | Konkordance včetně struktury '''' a strukturního atributu ''sp.num''}}] Možnost přehrát si k replice odpovídající zvukovou nahrávku v těchto dvou korpusech není k dispozici. ==== ORAL2013 ==== Korpus ORAL2013 naopak přehrávání zvuku umožňuje, a to pomocí bleděmodře zbarvených hranatých závorek ''[...]'' a znamének ''+'' rozmístěných v konkordančních řádcích. Kliknutím na ''['' nebo '']'' přehrajete segment, který je závorkami obklopen; kliknutím na ''+'' přehrajete jeden po druhém segmenty po obou stranách znaménka. Při bližším ohledání je zřejmé, že ''+'' není umístěno mezi všemi segmenty: tam, kde ''+'' není, jsou sousední segmenty součástí překryvu a patří k nim tedy stejný zvukový úryvek. Struktura dialogu je tak částečně naznačena už ovládacími prvky pro přehrávání zvuku. Přesto se ovšem při důkladnější analýze komplexních výměn replik nejspíš neobejdete bez zobrazení struktur '''', znovu zejména kvůli informaci o číslu mluvčího ''sp.num'' (za účelem spárování replik patřících stejnému účastníkovi) a také kvůli explicitnímu zobrazení atributu ''sp.prekryv'', který poskytuje stejnou informaci jako znaménko ''+'' (zda je promluva součástí překryvu, či není), jen nápadnějším způsobem. Pokud si chcete konkordanci exportovat a pracovat s ní v nějakém externím programu, je zobrazení těchto struktur a atributů nutností, neboť značky ''['', '']'' a ''+'' se při exportu ztratí. [{{ :kurz:konk_with_sp_num_prekryv.png?direct | Konkordance z korpusu ORAL2013 vč. struktury '''' a strukturních atributů ''sp.num'' a ''sp.prekryv'' }}] Mnohem přehlednější je však pracovat s replikami dialogu v náhledu Promluvy (viz výše), jež se zobrazí po kliknutí na [[pojmy:kwic|KWIC]]. Také v tomto režimu lze jednotlivé repliky pohodlně přehrát. ===== Metainformace u KWIC ===== Jak je patrné z obrázku v předchozí sekci, který ukazuje výběr struktur a atributů k zobrazení, můžete si přímo v textu konkordance zobrazit kromě čísla mluvčího a případně překryvu i jiné údaje jako např. oblast původu mluvčího (atribut ''sp.oblast'') nebo jeho věkovou skupinu (atribut ''sp.vek''). Pokud si těchto atributů ovšem zaškrtnete více, konkordance začne být velmi rychle nepřehledná, neboť se budou zobrazovat u každé struktury '''' (budou tedy vložené do přepisu). Alternativní způsob je zobrazit si stejné údaje jako [[manualy:kontext:moznosti_zobrazeni#metainformace|metainformace na levém okraji konkordance]]. Na každém řádku konkordance je pak zobrazen údaj, který odpovídá danému atributu struktury, do níž patří KWIC. Pokud vás tedy tolik nezajímá struktura dialogu a jde vám spíš o vlastnosti konkrétní promluvy, jíž součástí je KWIC, bude toto zobrazení mnohem pohodlnější. [{{ :kurz:metainformace_oral.png | Výběr zobrazení metainformací v menu Zobrazeni → Korpusová nastavení }}] [{{ :kurz:metainformace_v_konkordanci_oral.png?direct | Metainformace se zobrazují na levém kraji konkordanci a vždy se vztahují ke KWIC, nicméně jde o stejný údaj jako u odpovídajícího strukturního atributu (zde např. hodnota ''sp.prekryv'') }}] Zdrojem velmi zajímavých sociolingvistických analýz mohou být frekvenční distribuce vytvořené na základě metainformací v menu [[manualy:kontext:frekvence#vlastni_nastaveni_frekvencni_distribuce|Frekvence → Vlastní]]. S jejich pomocí je možné zjistit, zda hledaný výraz na pozici KWIC používají více ženy, či muži, mladší, či starší mluvčí, případně zda má nějaká regionální specifika, či se naopak zdá být sdílený všemi mluvčími češtiny bez rozdílů. [{{ :kurz:frek_dist_meta_zadani.png | Frekvenční distribuce podle metainformací: může nás např. zajímat rozložení podle pohlaví -- užívají daný výraz více ženy, nebo muži? }}] [{{ :kurz:frek_dist_meta_vysledek.png?direct | Frekvenční distribuce dotazu ''[word=%%"(?i)koč(ič|k).*"%%]'' podle pohlaví: zdá se, že alespoň v korpusu ORAL2013 o kočkách, kočičkách ap. mluví více ženy než muži }}] ====== Některé zajímavé dotazy ====== ==== Varianty výrazu protože ==== Na to, jak je slovo //protože// v mluvené řeči běžné, je až nepohodlně dlouhé (3 slabiky!). Není proto divu, že se jej mluvčí často snaží různými způsoby výslovnostně ošidit a artikulační úsilí raději věnovat slovům, která nesou více obsahu a nejsou tak snadno odhadnutelná. V korpusu ORAL2013 se v přepisu vyskytují následující výslovnostní((Korpus ORAL2013 nebyl primárně vytvořen pro fonetický výzkum, jednotlivé varianty a jejich frekvence je tudíž potřeba brát s jistou rezervou. Poskytnou ale velmi dobrý základní přehled o šířce variace.)) varianty výrazu //protože//: [{{ :kurz:varianty_protoze_oral2013.png?direct | Varianty //protože// v korpusu ORAL2013 }}] Zkuste si některé z nich vyhledat. Odhalí [[manualy:kontext:frekvencni_distribuce#frekvencni_distribuce_podle_strukturnich_atributu|frekvenční distribuce]] podle sociolingvistických metainformací nějaké vzorce v jejich užívání? ==== Kolokace s pauzami (v korpusu ORAL2013) ==== Která slova se v naší řeči nápadně často vyskytují v okolí pauz? Zkuste v korpusu ORAL2013 zadat CQL dotaz ''[word=%%"%%\.{1,2}%%"%%]'' a zobrazit si [[manualy:kontext:kolokace|kolokace]]. Nezapomeňte na možnost zobrazit si pomocí odkazů **p/n** pozitivně/negativně filtrovanou konkordanci k danému kolokátu a prozkoumat tak do detailu, jak jednotlivé kombinace fungují. ==== Kolokace s hezitačními zvuky ==== Podobně zajímavé jsou i kolokace s hezitačními zvuky. Ty dohledáme v korpusu ORAL2013 pomocí CQL dotazu ''[word=%%"mmm|eee"%%]'', v korpusech ORAL2006 a ORAL2008 pak pomocí dotazů ''[word=%%"hmm|eee"%%]''. ---- [[manualy:kontext:index|Manuál rozhraní KonText]] • [[cnk:uvod|Korpusy ČNK]] • [[zaciname|Jak začít pracovat s ČNK]] • [[pojmy:prehled_pojmu|Přehled pojmů korpusové lingvistiky]] • [[uvod#zaklady_prace_s_korpusem_v_7_lekcich|Kurz práce s korpusem v 7 lekcích]] • [[pojmy:dotazovaci_jazyk|Dotazovací jazyk]] • [[pojmy:regularni_vyrazy|Regulární výrazy]] • [[pojmy:subkorpus|Subkorpus]] • [[pojmy:kolokace|Kolokace]]