Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:zobrazeni_dotazu [2021/03/03 15:06] – [Jak zobrazit dialog v mluvených korpusech] michalskrabal | kurz:zobrazeni_dotazu [2021/03/09 10:22] (aktuální) – [Jak změnit rozsah konkordančního řádku] vaclavcvrcek |
---|
===== Word – lemma – tag ===== | ===== Word – lemma – tag ===== |
| |
Tato „klíčová korpusová trojice“ je obsažena už v názvech různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]]. Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob. | Tato „klíčová korpusová trojice“ je se používá ke kladení různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]]. Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob. |
| |
^ Klíčový pojem ^ Význam ^ | ^ Klíčový pojem ^ Význam ^ |
===== Vnitřní struktura korpusu ===== | ===== Vnitřní struktura korpusu ===== |
| |
Nejprve si objasníme, v jaké struktuře jsou data, jež [[manualy:kontext:index|rozhraní KonText]] zpřístupňuje, uložena a zpracovávána. Podrobný popis poskytuje sekce [[pojmy:struktura_korpusu|Struktura korpusu]], zde alespoň stručný příklad toho, jak vypadají ukládané texty, a to včetně hlavičky obsahující [[pojmy:metadata|metainformace]]. Metainformace v použitém příkladu se týkají psaného textu z korpusu [[cnk:syn2015|SYN2015]], přičemž [[pojmy:doc|doc]] je název konkrétního textu((V korpusech [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] se v tomto významu používá strukturní atribut ''<opus>''.)) a dále následuje: titul, podtitul, jméno autora, vydání, nakladatel, místo vydání, rok vydání, rok prvního vydání, jméno překladatele, zdrojový jazyk, pohlaví autora, pohlaví překladatele, textová skupina ([[pojmy:txtype_group|txtype_group]]), textový typ ([[pojmy:txtype|txtype]]), žánrová skupina, [[pojmy:genre|žánr]], [[pojmy:medium|médium]], periodicita, cílové publikum, [[wp>International_Standard_Book_Number|ISBN]]/[[wp>International_Standard_Serial_Number|ISSN]], bibliografická informace, id publikace, id dokumentu (viz také [[seznamy:index|přehledy a seznamy značek]] užívaných k vkládání metainformací do textů). | Nejprve si objasníme, v jaké struktuře jsou data, jež [[manualy:kontext:index|rozhraní KonText]] zpřístupňuje, uložena a zpracovávána. Podrobný popis poskytuje sekce [[pojmy:struktura_korpusu|Struktura korpusu]], zde alespoň stručný příklad toho, jak vypadají ukládané texty, a to včetně hlavičky obsahující [[pojmy:metadata|metainformace]]. Metainformace v použitém příkladu se týkají psaného textu z korpusu [[cnk:syn2020|SYN2020]], přičemž [[pojmy:doc|doc]] je struktura odpovídající celému dílu s metainformacemi: titul, podtitul, jméno autora, vydání, nakladatel, místo vydání, rok vydání, rok prvního vydání, jméno překladatele, zdrojový jazyk, pohlaví autora, pohlaví překladatele, textová skupina ([[pojmy:txtype_group|txtype_group]]), textový typ ([[pojmy:txtype|txtype]]), žánrová skupina, [[pojmy:genre|žánr]], [[pojmy:medium|médium]], periodicita, cílové publikum, [[wp>International_Standard_Book_Number|ISBN]]/[[wp>International_Standard_Serial_Number|ISSN]], bibliografická informace, id publikace, id dokumentu (viz také [[seznamy:index|přehledy a seznamy značek]] užívaných k vkládání metainformací do textů). |
| |
**Vertikála** je interní formát korpusů, do něhož jsou všechny texty vstupující do korpusu převedeny. Zjednodušená ukázka vertikály z korpusu SYN2015: | **Vertikála** je interní formát korpusů, do něhož jsou všechny texty vstupující do korpusu převedeny. Zjednodušená ukázka vertikály z korpusu SYN2020: |
| |
<code> | <code> |
<doc title="Zářivá světla velkoměsta" subtitle="" author="McInerney, Jay" issue="" publisher="Volvox Globator" pubplace="Praha" pubyear="1994" | <doc title="Svět podle Clarksona" subtitle="" author="Clarkson, Jeremy" issue="" publisher="Dokořán" pubplace="Praha" |
first_published="1994" translator="Hrubý, Jiří" srclang="en: angličtina" authsex="M: muž" transsex="M: muž" txtype_group="FIC: beletrie" | pubyear="2016" first_published="2016" translator="Drobek, Aleš" srclang="en: angličtina" authsex="M: muž" transsex="M: muž" |
txtype="NOV: próza" genre_group="X: neuvedeno" genre="X: neuvedeno" medium="B: kniha" periodicity="NP: neperiodická publikace" | txtype_group="FIC: beletrie" txtype="COL: kratší próza" genre_group="X: neuvedeno" genre="X: neuvedeno" medium="B: kniha" |
audience="GEN: obecné publikum" isbnissn="80-85769-35-2" biblio="McInerney, Jay (1994): Zářivá světla velkoměsta. Překlad: Hrubý, Jiří. | periodicity="NP: neperiodická publikace" audience="GEN: obecné publikum" isbnissn="978-80-7363-760-6" |
Praha: Volvox Globator." id="zarsvvel"> | biblio="Clarkson, Jeremy (2016): Svět podle Clarksona. Překlad: Drobek, Aleš. Praha: Dokořán." id="clark_svetpodlec"> |
<text section="" section_orig="" author="" id="zarsvvel:1"> | <text author="" section="" section_orig="" id="clark_svetpodlec:1"> |
... | ... |
<p type="normal" id="zarsvvel:1:6"> | <p id="clark_svetpodlec:1:1466"> |
<s id="zarsvvel:1:6:1"> | <s id="clark_svetpodlec:1:1466:1"> |
Jak jak Db-------------- | V v RR--6---------- |
jsi být VB-S---2P-AA---I | Norsku Norsko NNNS6-----A---- |
vlastně vlastně TT-------------- | by být Vc----------I-- |
zbankrotoval zbankrotovat VpMS----R-AA---P | pořad pořad NNIS4-----A---- |
? ? Z:-------------- | <hi rend="italic"> |
" " Z:-------------- | Chcete chtít VB-P---2P-AAI-- |
zeptal zeptat VpIS----R-AA---P | být být Vf--------A-I-- |
se se P7--4----------- | milionářem milionář NNMS7-----A---- |
Bill Bill NNMS1-----A----- | <g/> |
. . Z:-------------- | ? ? Z:------------- |
| </hi> |
| zbankrotoval zbankrotovat VpMS----R-AAP-- |
| <g/> |
| , , Z:------------- |
| protože protože J,------------- |
| odkud odkud Db------------- |
| chcete chtít VB-P---2P-AAI-- |
| brát brát Vf--------A-I-- |
| záludné záludný AAFP4----1A---- |
| otázky otázka NNFP4-----A---- |
| <g/> |
| , , Z:------------- |
| které který P4FP1---------- |
| by být Vc----------I-- |
| chránily chránit VpFP----R-AAI-- |
| nejvyšší vysoký AAFP4----3A---- |
| odměny odměna NNFP4-----A---- |
| <g/> |
| , , Z:------------- |
| když když J,------------- |
| tam tam Db------------- |
| lidé člověk NNMP1-----A---- |
| vědí vědět VB-P---3P-AAI-- |
| úplně úplně Dg-------1A---- |
| všechno všechen PLNS4---------- |
| <g/> |
| ? ? Z:------------- |
</s> | </s> |
</p> | </p> |
</code> | </code> |
| |
<wrap lo>Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]). Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>''. Samotný text je uspořádán do sloupců. První sloupec představuje originální text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy).</wrap> | Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]), a končí značkou ''</doc>''. Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>'' (část díla mající stejného autora, typicky článek v novinách nebo v časopise). ''<text>'' se dále člení do odstavců (''<p>'') a vět (''<s>''). Kromě těchto hierarchických struktur se v korpusu objevují i struktury nehierarchické, např. ''<hi>'' (označuje řezy písma, v tomto případě kurzívu) a ''<g/>'' (označuje místo, kde v původním textu //nebyla// mezera -- tato informace umožňuje zobrazení textu v původní podobě). |
| |
<wrap lo>Všechny struktury včetně vět musí mít otevírací i ukončovací značku; po ''<s s id=%%"%%zarsvvel:1:6:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]).</wrap> | Všechny struktury včetně vět musejí mít otevírací i ukončovací značku; po ''<s id=%%"%%clark_svetpodlec:1:1466:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]). Výjimkou je v tomto případě značka ''<g/>'', která je jako nepárová ihned ukončena; nevyznačuje totiž rozsah (od--do), ale umístění. |
| |
| Samotný text je ve vertikále uspořádán do sloupců. První sloupec představuje původní text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy). |
| |
Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály: | Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály: |
| |
^ word ^ lemma ^ tag ^ | ^ word ^ lemma ^ tag ^ |
| ''Jak'' | jak | Db.* | | | ''V'' | v | R.* | |
| ''jsi'' | být | V.* | | | ''Norsku'' | Norsko | N.* | |
| ''vlastně'' | vlastně | T.* | | | ''by'' | být | V.* | |
| | ''pořad'' | pořad | N.* | |
| | ... | ... | ... | |
| ''zbankrotoval'' | zbankrotovat | V.* | | | ''zbankrotoval'' | zbankrotovat | V.* | |
| ''?'' | ? | Z.* | | | '','' | , | Z.* | |
| ... | ... | ... | | | ... | ... | ... | |
| |
Mezi konkordancí a menu vidíme tzv. **drobečkovou navigaci**. Oceníme ji především u složitějších, vícefázových dotazů (ty si nicméně ponechme do pozdějších lekcí): slouží jednak k snazší orientaci, jednak nám umožnuje vrátit se do kterékoliv fáze dotazu a podle potřeby jej modifikovat. | Mezi konkordancí a menu vidíme tzv. **drobečkovou navigaci**. Oceníme ji především u složitějších, vícefázových dotazů (ty si nicméně ponechme do pozdějších lekcí): slouží jednak k snazší orientaci, jednak nám umožnuje vrátit se do kterékoliv fáze dotazu a podle potřeby jej modifikovat. |
| |
[{{:kurz:prvni_pohled_na_konkordanci.png?896|}}] | [{{:kurz:prvni_pohled_na_konkordanci.png?direct&896|}}] |
| |
| |
Pokud potřebujeme analyzovat širší kontext hledaného výrazu, lze ho vyvolat kliknutím přímo na vybraný růžově zobrazený KWIC. V dolní části obrazovky se zobrazí okno s širším kontextem, který je možné pomocí šipek ještě zvětšovat (ne však donekonečna). Lze rovněž přepnout z **Výchozího zobrazení** na **Formátovaný text**, kde jsou zachovány původní řezy písma a lépe patrné hranice odstavců, případně strof a jednotlivých veršů u básní. Oceníte to především u [[kurz:hledani_v_mluvenych_korpusech#orientace_v_konkordanci|mluvených promluv]]. | Pokud potřebujeme analyzovat širší kontext hledaného výrazu, lze ho vyvolat kliknutím přímo na vybraný růžově zobrazený KWIC. V dolní části obrazovky se zobrazí okno s širším kontextem, který je možné pomocí šipek ještě zvětšovat (ne však donekonečna). Lze rovněž přepnout z **Výchozího zobrazení** na **Formátovaný text**, kde jsou zachovány původní řezy písma a lépe patrné hranice odstavců, případně strof a jednotlivých veršů u básní. Oceníte to především u [[kurz:hledani_v_mluvenych_korpusech#orientace_v_konkordanci|mluvených promluv]]. |
| |
[{{:kurz:rozsireni_kontextu.png?896|Rozšíření kontextu po kliknutí na KWIC }}] | [{{:kurz:rozsireni_kontextu.png?direct&896|Rozšíření kontextu po kliknutí na KWIC }}] |
| |
Ve výchozím nastavení vidíme vlevo modře zvýrazněný název dokumentu, z něhož daná kombinace slov pochází. Další informace (např. o autorovi, roku vydání, zdrojovém jazyku nebo u mluvených korpusů o věku mluvčích či geografické oblasti) lze zobrazit kliknutím na tento modrý text. V dolní části obrazovky se objeví barevné pole, v němž jsou všechny údaje o textu, z něhož ukázka pochází, sumarizovány. Toto pole zavřeme kliknutím na křížek v jeho horní části. | Ve výchozím nastavení vidíme vlevo modře zvýrazněný název dokumentu, z něhož daná kombinace slov pochází. Další informace (např. o autorovi, roku vydání, zdrojovém jazyku nebo u mluvených korpusů o věku mluvčích či geografické oblasti) lze zobrazit kliknutím na tento modrý text. V dolní části obrazovky se objeví barevné pole, v němž jsou všechny údaje o textu, z něhož ukázka pochází, sumarizovány. Toto pole zavřeme kliknutím na křížek v jeho horní části. |
| |
[{{:kurz:metadata.png?896|Zobrazení podrobných metainformací o textu }}] | [{{:kurz:metadata.png?direct&896|Zobrazení podrobných metainformací o textu }}] |
| |
<WRAP clear/> | <WRAP clear/> |
==== Jak změnit rozsah konkordančního řádku ==== | ==== Jak změnit rozsah konkordančního řádku ==== |
| |
Chcete vidět širší kontext KWICu nežli defaultně nastavených 10 [[pojmy:pozice|pozic]] (vlevo a vpravo)? V horním menu zvolíme **Zobrazení → [[manualy:kontext:zobrazeni#obecne_volby_zobrazeni_konkordance|Obecné volby zobrazení]]** a do formuláře zadáme požadovanou šířku kontextu v počtu pozic. Výsledek ovšem nebude nutně přehlednější, nastavení příliš širokého kontextu může být spíše kontraproduktivní. Rozmezí 10–15 pozic většinou plně dostačuje. Dále je dobré vědět, že běžný uživatel má limit pro rozšiřování kontextu maximálně 50 pozic. | Chcete vidět v každém řádku konkordančního seznamu širší kontext KWICu nežli defaultně nastavených 10 [[pojmy:pozice|pozic]] vlevo a vpravo? V horním menu zvolíme **Zobrazení → [[manualy:kontext:zobrazeni#obecne_volby_zobrazeni_konkordance|Obecné volby zobrazení]]** a do formuláře zadáme požadovanou šířku kontextu v počtu pozic. Výsledek ovšem nebude nutně přehlednější, nastavení příliš širokého kontextu může být spíše kontraproduktivní. Rozmezí 10–15 pozic většinou plně dostačuje. Dále je dobré vědět, že běžný uživatel má limit pro rozšiřování kontextu maximálně 50 pozic. |
==== Jak zobrazit celé věty s KWICem ==== | ==== Jak zobrazit celé věty s KWICem ==== |
| |
Ve výběru pozičních atributů nezapomeneme zaškrtnout tag (spolu s volbou, která ho zobrazí pouze u klíčového slova, nikoli u všech slov v dané konkordanci). | Ve výběru pozičních atributů nezapomeneme zaškrtnout tag (spolu s volbou, která ho zobrazí pouze u klíčového slova, nikoli u všech slov v dané konkordanci). |
| |
[{{:manualy:kontext:moznosti-zobrazeni2.png?700 |Formulář možností zobrazení }}] | [{{:manualy:kontext:moznosti-zobrazeni2.png?direct&700 |Formulář možností zobrazení }}] |
| |
<WRAP clear/> | <WRAP clear/> |
A takto vypadá zobrazení konkordančních řádků, na něž se aplikovaly výše uvedené volby: | A takto vypadá zobrazení konkordančních řádků, na něž se aplikovaly výše uvedené volby: |
| |
[{{:kurz:moznostizobrazeni_konkordance.png?900 |Konkordanční řádky se zobrazením jmen autorů a roku vydání a tagu (aplikovaného na KWIC)}}] | [{{:kurz:moznostizobrazeni_konkordance.png?direct&900 |Konkordanční řádky se zobrazením jmen autorů a roku vydání a tagu (aplikovaného na KWIC)}}] |
| |
==== Jak zobrazit dialog v mluvených korpusech ==== | ==== Jak zobrazit dialog v mluvených korpusech ==== |
Výchozí zobrazení rozšířeného kontextu, které dostanete při kliknutí na KWIC, je lineární a většinou rychlé orientaci či porozumění příliš nepomáhá. Lepší je zobrazit si dialog tak, aby v každém novém řádku byl jiný mluvčí. Přepnutím **Výchozího zobrazení** na **Formátovaný text** získáte právě takové setřídění. V zobrazení promluv jsou také snáze rozpoznatelné překryvy, tj. simultánní hovor dvou mluvčích. Najdete překryv na obou obrázcích? | Výchozí zobrazení rozšířeného kontextu, které dostanete při kliknutí na KWIC, je lineární a většinou rychlé orientaci či porozumění příliš nepomáhá. Lepší je zobrazit si dialog tak, aby v každém novém řádku byl jiný mluvčí. Přepnutím **Výchozího zobrazení** na **Promluvy** získáte právě takové setřídění. V zobrazení promluv jsou také snáze rozpoznatelné překryvy, tj. simultánní hovor dvou mluvčích. Najdete překryv na obou obrázcích? |
| |
[{{:kurz:dialog_vz.png | Výchozí zobrazení rozšířeného dialogu}}] | [{{:kurz:dialog_vz.png?direct&520 | Výchozí zobrazení rozšířeného dialogu}}] |
[{{:kurz:dialog_p.png | Zobrazení rozšířeného dialogu v promluvách}}] | [{{:kurz:dialog_p.png?direct&520 | Zobrazení rozšířeného dialogu v promluvách}}] |
====== Ukládání dat ====== | ====== Ukládání dat ====== |
| |
Exportovat můžete vždy, když je aktivní (tj. černě zbarvená) volba **Uložit**. Ukládat samozřejmě můžete nejen konkordanční řádky, ať už neupravené nebo třeba setříděné, ale také výsledky frekvenční distribuce a kolokační analýzy, o kterých bude řeč v dalších lekcích. Jak vidíte na obrázku níže, volba **Uložit** je aktivní. | Exportovat můžete vždy, když je aktivní (tj. černě zbarvená) volba **Uložit**. Ukládat samozřejmě můžete nejen konkordanční řádky, ať už neupravené nebo třeba setříděné, ale také výsledky frekvenční distribuce a kolokační analýzy, o kterých bude řeč v dalších lekcích. Jak vidíte na obrázku níže, volba **Uložit** je aktivní. |
| |
[{{:kurz:ulozit_frekvdisano.png?500 |}}] | [{{:kurz:ulozit_frekvdisano.png?direct&500 |}}] |
| |
| |
KonText umožňuje uložit dokonce celou konkordanci, a to se všemi informacemi, které jsou aktuálně zobrazeny (např. celý zobrazený levý i pravý kontext, ale i metainformace, jako je jméno autora či díla). Ukládání příliš rozsáhlých konkordancí (např. o tisících řádků) však nemá smysl -- s takovým rozsahem je výhodnější pracovat pomocí KonTextu než prostřednictvím Excelu. Často je záhodno konkordanci před uložením nějak dále zpracovat, např. pomocí vytvoření náhodného vzorku nebo třídění řádků. Možnost uložení (pokud nechceme kopírovat řádky po jednom prostřednictvím schránky, tedy za pomoci Ctrl+C -- Ctrl+V) vypadá takto: | KonText umožňuje uložit dokonce celou konkordanci, a to se všemi informacemi, které jsou aktuálně zobrazeny (např. celý zobrazený levý i pravý kontext, ale i metainformace, jako je jméno autora či díla). Ukládání příliš rozsáhlých konkordancí (např. o tisících řádků) však nemá smysl -- s takovým rozsahem je výhodnější pracovat pomocí KonTextu než prostřednictvím Excelu. Často je záhodno konkordanci před uložením nějak dále zpracovat, např. pomocí vytvoření náhodného vzorku nebo třídění řádků. Možnost uložení (pokud nechceme kopírovat řádky po jednom prostřednictvím schránky, tedy za pomoci Ctrl+C -- Ctrl+V) vypadá takto: |
| |
[{{:kurz:ulozit_trideniano.png?600 | Uložení setříděných konkordancí}}] | [{{:kurz:ulozit_trideniano.png?direct&600 | Uložení setříděných konkordancí}}] |
| |
| |
| |
<WRAP round help 40%> | <WRAP round help 40%> |
Zvolte korpus SYN2015 a hledejte: | Zvolte korpus SYN2020 a hledejte: |
* lemma ''vědomí'' | * lemma ''vědomí'' |
* slovní tvar ''vědomí'' | * slovní tvar ''vědomí'' |