Skrýt
Nastavení

Ukládání dat (lekce ze starší verze kurzu, nepoužívat)

Obsah této části byl inkorporován do jiné lekce kurzu. Pokračovat můžete třetí lekcí kurzu.

V předcházejících lekcích tohoto průvodce pro práci s korpusy jsme se naučili, jak pokládat různé druhy dotazů, co vše lze vyčíst z prvního pohledu na konkordanci, jak se třídí konkordanční řádky a jak zjistíme frekvenci nejrůznějších jevů. V této čtvrté lekci pak půjde především o ukládání nejrůznějších dat, k nimž jsme se dostali, ale také se vrátíme k frekvenční distribuci a pokusíme se o interpretaci lingvistických dat nalezených na základě korpusu.

Ukládání dat

Všechna data, která si už umíme vyhledat, si můžeme také uložit. Možnosti, které export dat z našeho manažeru nabízí, shrnuje příslušný oddíl manuálu. Výhodné je data ukládat do formátu XLSX (Excel), protože tento formát nám umožňuje jednoduchou práci s jednotlivými řádky. Volba Uložit > Vlastní poskytuje možnost vlastního nastavení exportu dat, ať už jde o připojení hlavičky či číslování řádků, nebo třeba o rozsah ukládaných řádků.

Co všechno můžu exportovat?

Exportovat můžete vždy, když je aktivní (tj. černě zbarvená) volba Uložit. Ukládat samozřejmě můžete nejen konkordanční řádky, ať už neupravené, nebo například setříděné, ale také výsledky frekvenční distribuce a kolokační analýzy. Jak vidíte na obrázku níže, volba Uložit je aktivní.

Nač jsou jednotlivé formáty dobré?

Při exportu dat si můžete vybrat ze čtyř různých formátů:

Formáty pro tabulkové editory: .xlsx či .csv

Velmi užitečný způsob, jak pracovat s exportovanými daty, jsou tabulkové editory, obvykle Excel či například Calc. Jejich výhodou je možnost uložená data posléze různě třídit či filtrovat a provádět na nich další operace. Nejjednodušší je otevřít exportovaná data přímo v excelovém sešitě (formát .xlsx), s kterým můžete okamžitě pracovat. Formát .csv je textový formát umožňující zachovat sloupcový charakter dat - takto uložená data také lze otevírat v tabulkových editorech, a to i v jiných, než je Excel, např. v Open Office Calc.

Prostý text: .txt

Pokud výsledek nebudete chtít zpracovávat v tabulkovém editoru, uložte si ho v tomto formátu. KWIC zůstane oddělený tabulátory a jednotlivé konkordance budou na samostatných řádcích.

  • Uložte si své konkordance (např. s KWICem předložka + vědomí) ve formátu .txt.
  • Zjistěte, jaký program váš počítač automaticky zvolí pro otvírání. Notepad – poznámkový blok? Nebo třeba WordPad či některý produkt řady MS Office?
  • Máte potíž s kódováním, nebo ne (zobrazuje se vám správně diakritika)?
  • Jsou konkordance na samostatných řádcích?
  • V případě jakýchkoli potíží vřele doporučujeme, abyste si instalovali nějaký volně šiřitelný textový editor, např. Notepad++, a data si zobrazovali v něm.
Extensible Markup Language: .xml

Tento formát je určen především pro pokročilé uživatele. Takto uložená data nelze otevřít v tabulkových editorech, ani s nimi nelze pracovat jako s čistým textem.

Uložení konkordance

KonText umožňuje uložit dokonce celou konkordanci, a to se všemi informacemi, které jsou aktuálně zobrazeny (např. celý zobrazený levý i pravý kontext, ale i metainformace, jako je jméno autora či díla). Ukládání příliš rozsáhlých konkordancí (například o tisících řádků) však nemá smysl - s takovým rozsahem je výhodnější pracovat pomocí KonTextu, než prostřednictvím Excelu. Často je záhodno konkordanci před uložením nějak dále zpracovat, např. pomocí vytvoření náhodného vzorku, třídění řádků nebo frekvenční distribuce. Možnost uložení (pokud nechceme kopírovat řádky po jednom prostřednictvím schránky, tedy za pomoci Ctrl+C – Ctrl+V) vypadá takto:

Uložení setříděných konkordancí

Uložení výsledků analýzy

Kromě uložení výsledku dotazu (tedy samotných konkordančních řádků) můžeme ukládat i výsledky analýz, především frekvenční distribuce či kolokační analýzy. Ve výsledné tabulce (pokud data otevíráme v tabulkovém editoru) můžeme dále třídit, promazávat či jinak upravovat řádky podle našich představ a výzkumných záměrů. V korpusu SYN2010 najděte všechna slova obsahující segment krv (typ dotazu Část slova). Pomocí funkce Frekvence → Lemmata vytvořte tabulku, která řadí lemmata obsahující v některém tvaru řetězec znaků krv podle frekvence.

V horní části výsledné tabulky vidíte, že takových lemmat je celkem 138. Vás ale budou zajímat jen taková lemmata, která se v daném korpusu vyskytují alespoň desetkrát. Při ukládání zvolte položku Uložit → Vlastní…, která vám umožní omezit počet exportovaných řádků (od 1 do 39, na řádku 40 je slovo, které je v korpusu SYN2010 pouze devětkrát). Zvolte formát XLSX a uložte. V okně, které se vám automaticky zobrazí, stačí už jen zvolit, zda chcete soubor otevřít ve formátu Excel (pozor, v tom případě není zatím uložený), nebo ho rovnou uložit mezi své soubory.

Frekvenční distribuce pro pokročilé

Frekvenční distribuce je funkce, která je při analýze korpusových dat velice důležitá. Je tedy dobré si ještě jednou vyzkoušet, jak fungují i složitější možnosti frekvenční distribuce a co všechno s její pomocí můžeme zjistit. V následujícím příkladu navíc ukážeme i možnosti lingvistické interpretace výsledků korpusové analýzy.

Zadání dotazu: lemma vlastně v korpusu syn
Postupujte podle následujícího návodu
  1. Nastavte si nereferenční korpus syn
  2. Vyhledejte výplňové slůvko vlastně (jako lemma)
  3. Porovnejte jeho frekvenční distribuci v psaných korpusech s výskyty v mluvené češtině

Po zobrazení konkordance stačí z menu vybrat Frekvence > Typy textů. Výsledek vyhledávání ve verzi korpusu syn z 27. 1. 2014 odpovídá této tabulce (jakým způsobem interpretovat délku a šířku sloupcových grafů, najdete v nápovědě k této funkci):

Frekvenční distribuce typů textů lemmatu vlastně
Lemma "vlastně" v psaném jazyce korpusů řady SYN

Budeme-li z přehledu posuzovat pouze dvě extrémní hodnoty (a necháme-li si tak rozdíly mezi publicistikou a beletrií na jinou analýzu), vidíme tyto výsledky (je třeba srovnávat pouze relativní frekvence – i.p.m. –, protože jednotlivé žánry nejsou zastoupené stejným objemem textů):

nejvyšší relat. frekvence nejnižší relat. frekvence
divadelní hry (420 i.p.m.) encyklopedie (73,7 i.p.m.)

Divadelní hry (txtype SCR) jako druh psaného textu, který je nejbližší mluvenému jazyku, přímo vybízejí ke srovnání s korpusy řady ORAL. Zadáme tedy stejný dotaz, tentokrát do korpusu Oral2013.

Jelikož mluvené korpusy (zatím) nejsou lemmatizované, automaticky nám zmizí typ dotazu Lemma. Naštěstí hledáme slovo, které se neskloňuje ani nečasuje, proto můžeme použít typ dotazu Základní.

Konkordance slova vlastně v korpusu Oral2013
Srovnání mluveného a psaného jazyka ve vztahu k používání „vlastně“
jazyk - relativní frekvence (i.p.m.)
- divadelních her 420 1)
- románů 374 2)
- encyklopedií 74 3)
- neformální mluvený (ORAL2013) 1542 4)

Je jasné, že encyklopedie (relativní frekvence vlastně činí 74 i.p.m.) musí být stručné a nemohou si dovolit luxus vágnosti a dovysvětlování. Mluvený jazyk, který divadelní hry, ale třeba i romány (především v přímé řeči) napodobují, naopak jistou redundanci (kterou vlastně signalizuje) přímo vyžaduje. Jaké další proměnné mohou mít vliv na výskyt tohoto slova v neformálních mluvených projevech (v korpusu ORAL2013)?

Frekvenční distribuce charakteristik mluvčích v mluvených korpusech

Věk, pohlaví, vzdělání, oblast – to vše si navolíte prostřednictvím volby Frekvence > Vlastní ve formuláři Frekvenční distribuce podle metainformací. Pokud chcete zjistit frekvenci jevu podle několika různých metainformací najednou, stačí pouze podržet tlačítko Ctrl a vybírat.

Frekvenční distribuce sociolingvistických proměnných

Vyzkoušejte si na závěr

  • Jak se liší výskyt slova vole v mluvě mužů a žen? Zjistěte z frekvenční distribuce v korpusech řady ORAL.
  • Vyslovujeme vole vždy i s l? Zkuste vyhledat různé podoby daného slova a opět zjistěte jejich frekv. distribuci.
  • Výsledky si uložte ve formátu .xlsx.

Příští, pátá lekce, se soustředí na ovládnutí dotazovacího jazyka CQL. Tento typ dotazování úzce souvisí také se zvládnutím tzv. regulárních výrazů – i ty na vás čekají příště a díky nim budete konečně moci využívat všech možností, jež korpus nabízí.

Olga Richterová, Dominika Kováříková, Jan Kocek


1)
Toto číslo se opírá o divadelní hry obsažené v referenčních korpusech SYN2000, SYN2005 a SYN2010.
2)
Toto číslo se opírá o romány obsažené v referenčních korpusech SYN2000, SYN2005 a SYN2010.
3)
Toto číslo se opírá o encyklopedické texty obsažené v referenčních korpusech SYN2000, SYN2005 a SYN2010.
4)
Toto číslo je výsledkem dotazu „vlast?ně“ (typ dotazu: Slovní tvar), který vyhledá tvary vlastně i vlasně (ten je v mluveném jazyce frekventovanější).