Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
kurz:zobrazeni_dotazu [2021/03/08 12:19] – [Vnitřní struktura korpusu] michalkren | kurz:zobrazeni_dotazu [2021/03/09 10:22] (aktuální) – [Jak změnit rozsah konkordančního řádku] vaclavcvrcek |
---|
===== Word – lemma – tag ===== | ===== Word – lemma – tag ===== |
| |
Tato „klíčová korpusová trojice“ je obsažena už v názvech různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]]. Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob. | Tato „klíčová korpusová trojice“ je se používá ke kladení různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]]. Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob. |
| |
^ Klíčový pojem ^ Význam ^ | ^ Klíčový pojem ^ Význam ^ |
</code> | </code> |
| |
Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]). Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>'' (část díla mající stejného autora, typicky článek v novinách nebo v časopise). ''<text>'' se dále člení do odstavců (''<p>'') a vět (''<s>''). Kromě těchto hierarchických struktur se v korpusu objevují i struktury nehierarchické, např. ''<hi>'' (označuje řezy písma, v tomto případě kurzívu) a ''<g/>'' (označuje místo, kde v původním textu //nebyla// mezera -- tato informace umožňuje zobrazení textu v původní podobě). | Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]), a končí značkou ''</doc>''. Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>'' (část díla mající stejného autora, typicky článek v novinách nebo v časopise). ''<text>'' se dále člení do odstavců (''<p>'') a vět (''<s>''). Kromě těchto hierarchických struktur se v korpusu objevují i struktury nehierarchické, např. ''<hi>'' (označuje řezy písma, v tomto případě kurzívu) a ''<g/>'' (označuje místo, kde v původním textu //nebyla// mezera -- tato informace umožňuje zobrazení textu v původní podobě). |
| |
Všechny struktury včetně vět musejí mít otevírací i ukončovací značku; po ''<s s id=%%"%%clark_svetpodlec:1:1466:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]). Výjimkou je v tomto případě značka ''<g/>'', která je jako nepárová ihned ukončena; nevyznačuje totiž rozsah (od--do), ale místo. | Všechny struktury včetně vět musejí mít otevírací i ukončovací značku; po ''<s id=%%"%%clark_svetpodlec:1:1466:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]). Výjimkou je v tomto případě značka ''<g/>'', která je jako nepárová ihned ukončena; nevyznačuje totiž rozsah (od--do), ale umístění. |
| |
Samotný text je uspořádán do sloupců. První sloupec představuje původní text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy). | Samotný text je ve vertikále uspořádán do sloupců. První sloupec představuje původní text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy). |
| |
Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály: | Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály: |
==== Jak změnit rozsah konkordančního řádku ==== | ==== Jak změnit rozsah konkordančního řádku ==== |
| |
Chcete vidět širší kontext KWICu nežli defaultně nastavených 10 [[pojmy:pozice|pozic]] (vlevo a vpravo)? V horním menu zvolíme **Zobrazení → [[manualy:kontext:zobrazeni#obecne_volby_zobrazeni_konkordance|Obecné volby zobrazení]]** a do formuláře zadáme požadovanou šířku kontextu v počtu pozic. Výsledek ovšem nebude nutně přehlednější, nastavení příliš širokého kontextu může být spíše kontraproduktivní. Rozmezí 10–15 pozic většinou plně dostačuje. Dále je dobré vědět, že běžný uživatel má limit pro rozšiřování kontextu maximálně 50 pozic. | Chcete vidět v každém řádku konkordančního seznamu širší kontext KWICu nežli defaultně nastavených 10 [[pojmy:pozice|pozic]] vlevo a vpravo? V horním menu zvolíme **Zobrazení → [[manualy:kontext:zobrazeni#obecne_volby_zobrazeni_konkordance|Obecné volby zobrazení]]** a do formuláře zadáme požadovanou šířku kontextu v počtu pozic. Výsledek ovšem nebude nutně přehlednější, nastavení příliš širokého kontextu může být spíše kontraproduktivní. Rozmezí 10–15 pozic většinou plně dostačuje. Dále je dobré vědět, že běžný uživatel má limit pro rozšiřování kontextu maximálně 50 pozic. |
==== Jak zobrazit celé věty s KWICem ==== | ==== Jak zobrazit celé věty s KWICem ==== |
| |