AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:zobrazeni_dotazu [2021/03/04 13:57] – [Jak zobrazit dialog v mluvených korpusech] Jan Kocekkurz:zobrazeni_dotazu [2021/03/09 10:22] (aktuální) – [Jak změnit rozsah konkordančního řádku] Václav Cvrček
Řádek 5: Řádek 5:
 ===== Word – lemma – tag ===== ===== Word – lemma – tag =====
  
-Tato „klíčová korpusová trojice“ je obsažena už v názvech různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]].  Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob.  +Tato „klíčová korpusová trojice“ je se používá ke kladení různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]].  Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob.  
  
 ^ Klíčový pojem ^ Význam ^ ^ Klíčový pojem ^ Význam ^
Řádek 16: Řádek 16:
 ===== Vnitřní struktura korpusu ===== ===== Vnitřní struktura korpusu =====
  
-Nejprve si objasníme, v jaké struktuře jsou data, jež [[manualy:kontext:index|rozhraní KonText]] zpřístupňuje, uložena a zpracovávána. Podrobný popis poskytuje sekce [[pojmy:struktura_korpusu|Struktura korpusu]], zde alespoň stručný příklad toho, jak vypadají ukládané texty, a to včetně hlavičky obsahující [[pojmy:metadata|metainformace]]. Metainformace v použitém příkladu se týkají psaného textu z korpusu [[cnk:syn2015|SYN2015]], přičemž [[pojmy:doc|doc]] je název konkrétního textu((V korpusech [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] se v tomto významu používá strukturní atribut ''<opus>''.)) a dále následuje: titul, podtitul, jméno autora, vydání, nakladatel, místo vydání, rok vydání, rok prvního vydání, jméno překladatele, zdrojový jazyk, pohlaví autora, pohlaví překladatele, textová skupina ([[pojmy:txtype_group|txtype_group]]), textový typ ([[pojmy:txtype|txtype]]), žánrová skupina, [[pojmy:genre|žánr]], [[pojmy:medium|médium]], periodicita, cílové publikum, [[wp>International_Standard_Book_Number|ISBN]]/[[wp>International_Standard_Serial_Number|ISSN]], bibliografická informace, id publikace, id dokumentu (viz také [[seznamy:index|přehledy a seznamy značek]] užívaných k vkládání metainformací do textů).+Nejprve si objasníme, v jaké struktuře jsou data, jež [[manualy:kontext:index|rozhraní KonText]] zpřístupňuje, uložena a zpracovávána. Podrobný popis poskytuje sekce [[pojmy:struktura_korpusu|Struktura korpusu]], zde alespoň stručný příklad toho, jak vypadají ukládané texty, a to včetně hlavičky obsahující [[pojmy:metadata|metainformace]]. Metainformace v použitém příkladu se týkají psaného textu z korpusu [[cnk:syn2020|SYN2020]], přičemž [[pojmy:doc|doc]] je struktura odpovídající celému dílu s metainformacemi: titul, podtitul, jméno autora, vydání, nakladatel, místo vydání, rok vydání, rok prvního vydání, jméno překladatele, zdrojový jazyk, pohlaví autora, pohlaví překladatele, textová skupina ([[pojmy:txtype_group|txtype_group]]), textový typ ([[pojmy:txtype|txtype]]), žánrová skupina, [[pojmy:genre|žánr]], [[pojmy:medium|médium]], periodicita, cílové publikum, [[wp>International_Standard_Book_Number|ISBN]]/[[wp>International_Standard_Serial_Number|ISSN]], bibliografická informace, id publikace, id dokumentu (viz také [[seznamy:index|přehledy a seznamy značek]] užívaných k vkládání metainformací do textů).
  
-**Vertikála** je interní formát korpusů, do něhož jsou všechny texty vstupující do korpusu převedeny. Zjednodušená ukázka vertikály z korpusu SYN2015:+**Vertikála** je interní formát korpusů, do něhož jsou všechny texty vstupující do korpusu převedeny. Zjednodušená ukázka vertikály z korpusu SYN2020:
  
 <code> <code>
-<doc title="Zářivá světla velkoměsta" subtitle="" author="McInerneyJay" issue="" publisher="Volvox Globator" pubplace="Praha" pubyear="1994" +<doc title="Svět podle Clarksona" subtitle="" author="ClarksonJeremy" issue="" publisher="Dokořán" pubplace="Praha" 
-first_published="1994" translator="HrubýJiří" srclang="en: angličtina" authsex="M: muž" transsex="M: muž" txtype_group="FIC: beletrie" +pubyear="2016" first_published="2016" translator="DrobekAleš" srclang="en: angličtina" authsex="M: muž" transsex="M: muž" 
-txtype="NOV: próza" genre_group="X: neuvedeno" genre="X: neuvedeno" medium="B: kniha" periodicity="NP: neperiodická publikace" +txtype_group="FIC: beletrie" txtype="COLkratší próza" genre_group="X: neuvedeno" genre="X: neuvedeno" medium="B: kniha" 
-audience="GEN: obecné publikum" isbnissn="80-85769-35-2" biblio="McInerneyJay (1994): Zářivá světla velkoměsta. Překlad: HrubýJiří +periodicity="NP: neperiodická publikace" audience="GEN: obecné publikum" isbnissn="978-80-7363-760-6" 
-Praha: Volvox Globator." id="zarsvvel"> +biblio="ClarksonJeremy (2016): Svět podle Clarksona. Překlad: DrobekAleš. Praha: Dokořán." id="clark_svetpodlec"> 
-<text section="" section_orig="" author="" id="zarsvvel:1">+<text author="" section="" section_orig="" id="clark_svetpodlec:1">
 ... ...
-<p type="normal" id="zarsvvel:1:6"> +<p id="clark_svetpodlec:1:1466"> 
-<s id="zarsvvel:1:6:1"> +<s id="clark_svetpodlec:1:1466:1"> 
-Jak     jak     Db-------------- +V             RR--6---------- 
-jsi     být     VB-S---2P-AA---I +Norsku  Norsko  NNNS6-----A---- 
-vlastně vlastně TT-------------- +by      být     Vc----------I-- 
-zbankrotoval    zbankrotovat    VpMS----R-AA---P +pořad   pořad   NNIS4-----A---- 
-            Z:-------------- +<hi rend="italic"> 
-            Z:-------------- +Chcete  chtít   VB-P---2P-AAI-- 
-zeptal  zeptat  VpIS----R-AA---P +být     být     Vf--------A-I-- 
-se      se      P7--4----------- +milionářem      milionář        NNMS7-----A---- 
-Bill    Bill    NNMS1-----A----- +<g/> 
-            Z:--------------+?       ?       Z:------------- 
 +</hi> 
 +zbankrotoval    zbankrotovat    VpMS----R-AAP-- 
 +<g/> 
 +            Z:------------- 
 +protože protože J,------------- 
 +odkud   odkud   Db------------- 
 +chcete  chtít   VB-P---2P-AAI-- 
 +brát    brát    Vf--------A-I-- 
 +záludné záludný AAFP4----1A---- 
 +otázky  otázka  NNFP4-----A---- 
 +<g/> 
 +            Z:------------- 
 +které   který   P4FP1---------- 
 +by      být     Vc----------I-- 
 +chránily        chránit VpFP----R-AAI-- 
 +nejvyšší        vysoký  AAFP4----3A---- 
 +odměny  odměna  NNFP4-----A---- 
 +<g/> 
 +,       ,       Z:------------- 
 +když    když    J,------------- 
 +tam     tam     Db------------- 
 +lidé    člověk  NNMP1-----A---
 +vědí    vědět   VB-P---3P-AAI-- 
 +úplně   úplně   Dg-------1A---- 
 +všechno všechen PLNS4---------- 
 +<g/> 
 +            Z:-------------
 </s> </s>
 </p> </p>
Řádek 48: Řádek 75:
 </code> </code>
  
-<wrap lo>Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]). Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>''Samotný text je uspořádán do sloupců. První sloupec představuje originální text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy).</wrap+Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]), a končí značkou ''</doc>''. Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>'' (část díla mající stejného autora, typicky článek v novinách nebo v časopise)''<text>'' se dále člení do odstavců (''<p>'') a vět (''<s>''). Kromě těchto hierarchických struktur se v korpusu objevují i struktury nehierarchickénapř. ''<hi>'' (označuje řezy písma, v tomto případě kurzívua ''<g/>'' (označuje místo, kde v původním textu //nebyla// mezera -- tato informace umožňuje zobrazení textu v původní podobě).
  
-<wrap lo>Všechny struktury včetně vět musí mít otevírací i ukončovací značku; po ''<s id=%%"%%zarsvvel:1:6:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]).</wrap+Všechny struktury včetně vět musejí mít otevírací i ukončovací značku; po ''<s id=%%"%%clark_svetpodlec:1:1466:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]). Výjimkou je v tomto případě značka ''<g/>'', která je jako nepárová ihned ukončena; nevyznačuje totiž rozsah (od--do), ale umístění. 
 + 
 +Samotný text je ve vertikále uspořádán do sloupců. První sloupec představuje původní text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy).
  
 Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály: Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály:
  
 ^ word ^ lemma ^ tag ^ ^ word ^ lemma ^ tag ^
-| ''Jak''jak Db.* |  +| ''V''R.* |  
-| ''jsi'' | být | V.* |   +| ''Norsku'' | Norsko | N.* |  
-| ''vlastně''vlastně T.* | +| ''by'' | být | V.* |  
 +| ''pořad''pořad N.* |  
 +| ... | ... | ... |
 | ''zbankrotoval'' | zbankrotovat | V.* |  | ''zbankrotoval'' | zbankrotovat | V.* |
-| ''?''| Z.* | +| '',''| Z.* |
 | ... | ... | ... | | ... | ... | ... |
  
Řádek 100: Řádek 131:
 ==== Jak změnit rozsah konkordančního řádku ==== ==== Jak změnit rozsah konkordančního řádku ====
  
-Chcete vidět širší kontext KWICu nežli defaultně nastavených 10 [[pojmy:pozice|pozic]] (vlevo a vpravo)? V horním menu zvolíme **Zobrazení → [[manualy:kontext:zobrazeni#obecne_volby_zobrazeni_konkordance|Obecné volby zobrazení]]** a do formuláře zadáme požadovanou šířku kontextu v počtu pozic. Výsledek ovšem nebude nutně přehlednější, nastavení příliš širokého kontextu může být spíše kontraproduktivní. Rozmezí 10–15 pozic většinou plně dostačuje. Dále je dobré vědět, že běžný uživatel má limit pro rozšiřování kontextu maximálně 50 pozic.+Chcete vidět v každém řádku konkordančního seznamu širší kontext KWICu nežli defaultně nastavených 10 [[pojmy:pozice|pozic]] vlevo a vpravo? V horním menu zvolíme **Zobrazení → [[manualy:kontext:zobrazeni#obecne_volby_zobrazeni_konkordance|Obecné volby zobrazení]]** a do formuláře zadáme požadovanou šířku kontextu v počtu pozic. Výsledek ovšem nebude nutně přehlednější, nastavení příliš širokého kontextu může být spíše kontraproduktivní. Rozmezí 10–15 pozic většinou plně dostačuje. Dále je dobré vědět, že běžný uživatel má limit pro rozšiřování kontextu maximálně 50 pozic.
 ==== Jak zobrazit celé věty s KWICem ==== ==== Jak zobrazit celé věty s KWICem ====
  
Řádek 169: Řádek 200:
  
 <WRAP round help 40%> <WRAP round help 40%>
-Zvolte korpus SYN2015 a hledejte:+Zvolte korpus SYN2020 a hledejte:
   * lemma ''vědomí''    * lemma ''vědomí'' 
   * slovní tvar  ''vědomí''   * slovní tvar  ''vědomí''