AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Poslední revizeObě strany příští revize
kurz:zobrazeni_dotazu [2021/03/04 13:57] – [Jak zobrazit dialog v mluvených korpusech] jankocekkurz:zobrazeni_dotazu [2021/03/09 10:14] – [Vnitřní struktura korpusu] vaclavcvrcek
Řádek 5: Řádek 5:
 ===== Word – lemma – tag ===== ===== Word – lemma – tag =====
  
-Tato „klíčová korpusová trojice“ je obsažena už v názvech různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]].  Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob.  +Tato „klíčová korpusová trojice“ je se používá ke kladení různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]].  Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob.  
  
 ^ Klíčový pojem ^ Význam ^ ^ Klíčový pojem ^ Význam ^
Řádek 16: Řádek 16:
 ===== Vnitřní struktura korpusu ===== ===== Vnitřní struktura korpusu =====
  
-Nejprve si objasníme, v jaké struktuře jsou data, jež [[manualy:kontext:index|rozhraní KonText]] zpřístupňuje, uložena a zpracovávána. Podrobný popis poskytuje sekce [[pojmy:struktura_korpusu|Struktura korpusu]], zde alespoň stručný příklad toho, jak vypadají ukládané texty, a to včetně hlavičky obsahující [[pojmy:metadata|metainformace]]. Metainformace v použitém příkladu se týkají psaného textu z korpusu [[cnk:syn2015|SYN2015]], přičemž [[pojmy:doc|doc]] je název konkrétního textu((V korpusech [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] se v tomto významu používá strukturní atribut ''<opus>''.)) a dále následuje: titul, podtitul, jméno autora, vydání, nakladatel, místo vydání, rok vydání, rok prvního vydání, jméno překladatele, zdrojový jazyk, pohlaví autora, pohlaví překladatele, textová skupina ([[pojmy:txtype_group|txtype_group]]), textový typ ([[pojmy:txtype|txtype]]), žánrová skupina, [[pojmy:genre|žánr]], [[pojmy:medium|médium]], periodicita, cílové publikum, [[wp>International_Standard_Book_Number|ISBN]]/[[wp>International_Standard_Serial_Number|ISSN]], bibliografická informace, id publikace, id dokumentu (viz také [[seznamy:index|přehledy a seznamy značek]] užívaných k vkládání metainformací do textů).+Nejprve si objasníme, v jaké struktuře jsou data, jež [[manualy:kontext:index|rozhraní KonText]] zpřístupňuje, uložena a zpracovávána. Podrobný popis poskytuje sekce [[pojmy:struktura_korpusu|Struktura korpusu]], zde alespoň stručný příklad toho, jak vypadají ukládané texty, a to včetně hlavičky obsahující [[pojmy:metadata|metainformace]]. Metainformace v použitém příkladu se týkají psaného textu z korpusu [[cnk:syn2020|SYN2020]], přičemž [[pojmy:doc|doc]] je struktura odpovídající celému dílu s metainformacemi: titul, podtitul, jméno autora, vydání, nakladatel, místo vydání, rok vydání, rok prvního vydání, jméno překladatele, zdrojový jazyk, pohlaví autora, pohlaví překladatele, textová skupina ([[pojmy:txtype_group|txtype_group]]), textový typ ([[pojmy:txtype|txtype]]), žánrová skupina, [[pojmy:genre|žánr]], [[pojmy:medium|médium]], periodicita, cílové publikum, [[wp>International_Standard_Book_Number|ISBN]]/[[wp>International_Standard_Serial_Number|ISSN]], bibliografická informace, id publikace, id dokumentu (viz také [[seznamy:index|přehledy a seznamy značek]] užívaných k vkládání metainformací do textů).
  
-**Vertikála** je interní formát korpusů, do něhož jsou všechny texty vstupující do korpusu převedeny. Zjednodušená ukázka vertikály z korpusu SYN2015:+**Vertikála** je interní formát korpusů, do něhož jsou všechny texty vstupující do korpusu převedeny. Zjednodušená ukázka vertikály z korpusu SYN2020:
  
 <code> <code>
-<doc title="Zářivá světla velkoměsta" subtitle="" author="McInerneyJay" issue="" publisher="Volvox Globator" pubplace="Praha" pubyear="1994" +<doc title="Svět podle Clarksona" subtitle="" author="ClarksonJeremy" issue="" publisher="Dokořán" pubplace="Praha" 
-first_published="1994" translator="HrubýJiří" srclang="en: angličtina" authsex="M: muž" transsex="M: muž" txtype_group="FIC: beletrie" +pubyear="2016" first_published="2016" translator="DrobekAleš" srclang="en: angličtina" authsex="M: muž" transsex="M: muž" 
-txtype="NOV: próza" genre_group="X: neuvedeno" genre="X: neuvedeno" medium="B: kniha" periodicity="NP: neperiodická publikace" +txtype_group="FIC: beletrie" txtype="COLkratší próza" genre_group="X: neuvedeno" genre="X: neuvedeno" medium="B: kniha" 
-audience="GEN: obecné publikum" isbnissn="80-85769-35-2" biblio="McInerneyJay (1994): Zářivá světla velkoměsta. Překlad: HrubýJiří +periodicity="NP: neperiodická publikace" audience="GEN: obecné publikum" isbnissn="978-80-7363-760-6" 
-Praha: Volvox Globator." id="zarsvvel"> +biblio="ClarksonJeremy (2016): Svět podle Clarksona. Překlad: DrobekAleš. Praha: Dokořán." id="clark_svetpodlec"> 
-<text section="" section_orig="" author="" id="zarsvvel:1">+<text author="" section="" section_orig="" id="clark_svetpodlec:1">
 ... ...
-<p type="normal" id="zarsvvel:1:6"> +<p id="clark_svetpodlec:1:1466"> 
-<s id="zarsvvel:1:6:1"> +<s id="clark_svetpodlec:1:1466:1"> 
-Jak     jak     Db-------------- +V             RR--6---------- 
-jsi     být     VB-S---2P-AA---I +Norsku  Norsko  NNNS6-----A---- 
-vlastně vlastně TT-------------- +by      být     Vc----------I-- 
-zbankrotoval    zbankrotovat    VpMS----R-AA---P +pořad   pořad   NNIS4-----A---- 
-            Z:-------------- +<hi rend="italic"> 
-            Z:-------------- +Chcete  chtít   VB-P---2P-AAI-- 
-zeptal  zeptat  VpIS----R-AA---P +být     být     Vf--------A-I-- 
-se      se      P7--4----------- +milionářem      milionář        NNMS7-----A---- 
-Bill    Bill    NNMS1-----A----- +<g/> 
-            Z:--------------+?       ?       Z:------------- 
 +</hi> 
 +zbankrotoval    zbankrotovat    VpMS----R-AAP-- 
 +<g/> 
 +            Z:------------- 
 +protože protože J,------------- 
 +odkud   odkud   Db------------- 
 +chcete  chtít   VB-P---2P-AAI-- 
 +brát    brát    Vf--------A-I-- 
 +záludné záludný AAFP4----1A---- 
 +otázky  otázka  NNFP4-----A---- 
 +<g/> 
 +            Z:------------- 
 +které   který   P4FP1---------- 
 +by      být     Vc----------I-- 
 +chránily        chránit VpFP----R-AAI-- 
 +nejvyšší        vysoký  AAFP4----3A---- 
 +odměny  odměna  NNFP4-----A---- 
 +<g/> 
 +,       ,       Z:------------- 
 +když    když    J,------------- 
 +tam     tam     Db------------- 
 +lidé    člověk  NNMP1-----A---
 +vědí    vědět   VB-P---3P-AAI-- 
 +úplně   úplně   Dg-------1A---- 
 +všechno všechen PLNS4---------- 
 +<g/> 
 +            Z:-------------
 </s> </s>
 </p> </p>
Řádek 48: Řádek 75:
 </code> </code>
  
-<wrap lo>Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]). Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>''Samotný text je uspořádán do sloupců. První sloupec představuje originální text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy).</wrap+Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]), a končí značkou ''</doc>''. Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>'' (část díla mající stejného autora, typicky článek v novinách nebo v časopise)''<text>'' se dále člení do odstavců (''<p>'') a vět (''<s>''). Kromě těchto hierarchických struktur se v korpusu objevují i struktury nehierarchickénapř. ''<hi>'' (označuje řezy písma, v tomto případě kurzívua ''<g/>'' (označuje místo, kde v původním textu //nebyla// mezera -- tato informace umožňuje zobrazení textu v původní podobě).
  
-<wrap lo>Všechny struktury včetně vět musí mít otevírací i ukončovací značku; po ''<s id=%%"%%zarsvvel:1:6:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]).</wrap+Všechny struktury včetně vět musejí mít otevírací i ukončovací značku; po ''<s id=%%"%%clark_svetpodlec:1:1466:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]). Výjimkou je v tomto případě značka ''<g/>'', která je jako nepárová ihned ukončena; nevyznačuje totiž rozsah (od--do), ale umístění. 
 + 
 +Samotný text je ve vertikále uspořádán do sloupců. První sloupec představuje původní text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy).
  
 Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály: Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály:
  
 ^ word ^ lemma ^ tag ^ ^ word ^ lemma ^ tag ^
-| ''Jak''jak Db.* |  +| ''V''R.* |  
-| ''jsi'' | být | V.* |   +| ''Norsku'' | Norsko | N.* |  
-| ''vlastně''vlastně T.* | +| ''by'' | být | V.* |  
 +| ''pořad''pořad N.* |  
 +| ... | ... | ... |
 | ''zbankrotoval'' | zbankrotovat | V.* |  | ''zbankrotoval'' | zbankrotovat | V.* |
-| ''?''| Z.* | +| '',''| Z.* |
 | ... | ... | ... | | ... | ... | ... |
  
Řádek 169: Řádek 200:
  
 <WRAP round help 40%> <WRAP round help 40%>
-Zvolte korpus SYN2015 a hledejte:+Zvolte korpus SYN2020 a hledejte:
   * lemma ''vědomí''    * lemma ''vědomí'' 
   * slovní tvar  ''vědomí''   * slovní tvar  ''vědomí''