Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize |
kurz:zobrazeni_dotazu [2021/03/04 13:55] – jankocek | kurz:zobrazeni_dotazu [2021/03/09 10:14] – [Vnitřní struktura korpusu] vaclavcvrcek |
---|
===== Word – lemma – tag ===== | ===== Word – lemma – tag ===== |
| |
Tato „klíčová korpusová trojice“ je obsažena už v názvech různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]]. Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob. | Tato „klíčová korpusová trojice“ je se používá ke kladení různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]]. Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob. |
| |
^ Klíčový pojem ^ Význam ^ | ^ Klíčový pojem ^ Význam ^ |
===== Vnitřní struktura korpusu ===== | ===== Vnitřní struktura korpusu ===== |
| |
Nejprve si objasníme, v jaké struktuře jsou data, jež [[manualy:kontext:index|rozhraní KonText]] zpřístupňuje, uložena a zpracovávána. Podrobný popis poskytuje sekce [[pojmy:struktura_korpusu|Struktura korpusu]], zde alespoň stručný příklad toho, jak vypadají ukládané texty, a to včetně hlavičky obsahující [[pojmy:metadata|metainformace]]. Metainformace v použitém příkladu se týkají psaného textu z korpusu [[cnk:syn2015|SYN2015]], přičemž [[pojmy:doc|doc]] je název konkrétního textu((V korpusech [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] se v tomto významu používá strukturní atribut ''<opus>''.)) a dále následuje: titul, podtitul, jméno autora, vydání, nakladatel, místo vydání, rok vydání, rok prvního vydání, jméno překladatele, zdrojový jazyk, pohlaví autora, pohlaví překladatele, textová skupina ([[pojmy:txtype_group|txtype_group]]), textový typ ([[pojmy:txtype|txtype]]), žánrová skupina, [[pojmy:genre|žánr]], [[pojmy:medium|médium]], periodicita, cílové publikum, [[wp>International_Standard_Book_Number|ISBN]]/[[wp>International_Standard_Serial_Number|ISSN]], bibliografická informace, id publikace, id dokumentu (viz také [[seznamy:index|přehledy a seznamy značek]] užívaných k vkládání metainformací do textů). | Nejprve si objasníme, v jaké struktuře jsou data, jež [[manualy:kontext:index|rozhraní KonText]] zpřístupňuje, uložena a zpracovávána. Podrobný popis poskytuje sekce [[pojmy:struktura_korpusu|Struktura korpusu]], zde alespoň stručný příklad toho, jak vypadají ukládané texty, a to včetně hlavičky obsahující [[pojmy:metadata|metainformace]]. Metainformace v použitém příkladu se týkají psaného textu z korpusu [[cnk:syn2020|SYN2020]], přičemž [[pojmy:doc|doc]] je struktura odpovídající celému dílu s metainformacemi: titul, podtitul, jméno autora, vydání, nakladatel, místo vydání, rok vydání, rok prvního vydání, jméno překladatele, zdrojový jazyk, pohlaví autora, pohlaví překladatele, textová skupina ([[pojmy:txtype_group|txtype_group]]), textový typ ([[pojmy:txtype|txtype]]), žánrová skupina, [[pojmy:genre|žánr]], [[pojmy:medium|médium]], periodicita, cílové publikum, [[wp>International_Standard_Book_Number|ISBN]]/[[wp>International_Standard_Serial_Number|ISSN]], bibliografická informace, id publikace, id dokumentu (viz také [[seznamy:index|přehledy a seznamy značek]] užívaných k vkládání metainformací do textů). |
| |
**Vertikála** je interní formát korpusů, do něhož jsou všechny texty vstupující do korpusu převedeny. Zjednodušená ukázka vertikály z korpusu SYN2015: | **Vertikála** je interní formát korpusů, do něhož jsou všechny texty vstupující do korpusu převedeny. Zjednodušená ukázka vertikály z korpusu SYN2020: |
| |
<code> | <code> |
<doc title="Zářivá světla velkoměsta" subtitle="" author="McInerney, Jay" issue="" publisher="Volvox Globator" pubplace="Praha" pubyear="1994" | <doc title="Svět podle Clarksona" subtitle="" author="Clarkson, Jeremy" issue="" publisher="Dokořán" pubplace="Praha" |
first_published="1994" translator="Hrubý, Jiří" srclang="en: angličtina" authsex="M: muž" transsex="M: muž" txtype_group="FIC: beletrie" | pubyear="2016" first_published="2016" translator="Drobek, Aleš" srclang="en: angličtina" authsex="M: muž" transsex="M: muž" |
txtype="NOV: próza" genre_group="X: neuvedeno" genre="X: neuvedeno" medium="B: kniha" periodicity="NP: neperiodická publikace" | txtype_group="FIC: beletrie" txtype="COL: kratší próza" genre_group="X: neuvedeno" genre="X: neuvedeno" medium="B: kniha" |
audience="GEN: obecné publikum" isbnissn="80-85769-35-2" biblio="McInerney, Jay (1994): Zářivá světla velkoměsta. Překlad: Hrubý, Jiří. | periodicity="NP: neperiodická publikace" audience="GEN: obecné publikum" isbnissn="978-80-7363-760-6" |
Praha: Volvox Globator." id="zarsvvel"> | biblio="Clarkson, Jeremy (2016): Svět podle Clarksona. Překlad: Drobek, Aleš. Praha: Dokořán." id="clark_svetpodlec"> |
<text section="" section_orig="" author="" id="zarsvvel:1"> | <text author="" section="" section_orig="" id="clark_svetpodlec:1"> |
... | ... |
<p type="normal" id="zarsvvel:1:6"> | <p id="clark_svetpodlec:1:1466"> |
<s id="zarsvvel:1:6:1"> | <s id="clark_svetpodlec:1:1466:1"> |
Jak jak Db-------------- | V v RR--6---------- |
jsi být VB-S---2P-AA---I | Norsku Norsko NNNS6-----A---- |
vlastně vlastně TT-------------- | by být Vc----------I-- |
zbankrotoval zbankrotovat VpMS----R-AA---P | pořad pořad NNIS4-----A---- |
? ? Z:-------------- | <hi rend="italic"> |
" " Z:-------------- | Chcete chtít VB-P---2P-AAI-- |
zeptal zeptat VpIS----R-AA---P | být být Vf--------A-I-- |
se se P7--4----------- | milionářem milionář NNMS7-----A---- |
Bill Bill NNMS1-----A----- | <g/> |
. . Z:-------------- | ? ? Z:------------- |
| </hi> |
| zbankrotoval zbankrotovat VpMS----R-AAP-- |
| <g/> |
| , , Z:------------- |
| protože protože J,------------- |
| odkud odkud Db------------- |
| chcete chtít VB-P---2P-AAI-- |
| brát brát Vf--------A-I-- |
| záludné záludný AAFP4----1A---- |
| otázky otázka NNFP4-----A---- |
| <g/> |
| , , Z:------------- |
| které který P4FP1---------- |
| by být Vc----------I-- |
| chránily chránit VpFP----R-AAI-- |
| nejvyšší vysoký AAFP4----3A---- |
| odměny odměna NNFP4-----A---- |
| <g/> |
| , , Z:------------- |
| když když J,------------- |
| tam tam Db------------- |
| lidé člověk NNMP1-----A---- |
| vědí vědět VB-P---3P-AAI-- |
| úplně úplně Dg-------1A---- |
| všechno všechen PLNS4---------- |
| <g/> |
| ? ? Z:------------- |
</s> | </s> |
</p> | </p> |
</code> | </code> |
| |
<wrap lo>Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]). Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>''. Samotný text je uspořádán do sloupců. První sloupec představuje originální text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy).</wrap> | Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]), a končí značkou ''</doc>''. Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>'' (část díla mající stejného autora, typicky článek v novinách nebo v časopise). ''<text>'' se dále člení do odstavců (''<p>'') a vět (''<s>''). Kromě těchto hierarchických struktur se v korpusu objevují i struktury nehierarchické, např. ''<hi>'' (označuje řezy písma, v tomto případě kurzívu) a ''<g/>'' (označuje místo, kde v původním textu //nebyla// mezera -- tato informace umožňuje zobrazení textu v původní podobě). |
| |
<wrap lo>Všechny struktury včetně vět musí mít otevírací i ukončovací značku; po ''<s s id=%%"%%zarsvvel:1:6:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]).</wrap> | Všechny struktury včetně vět musejí mít otevírací i ukončovací značku; po ''<s id=%%"%%clark_svetpodlec:1:1466:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]). Výjimkou je v tomto případě značka ''<g/>'', která je jako nepárová ihned ukončena; nevyznačuje totiž rozsah (od--do), ale umístění. |
| |
| Samotný text je ve vertikále uspořádán do sloupců. První sloupec představuje původní text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy). |
| |
Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály: | Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály: |
| |
^ word ^ lemma ^ tag ^ | ^ word ^ lemma ^ tag ^ |
| ''Jak'' | jak | Db.* | | | ''V'' | v | R.* | |
| ''jsi'' | být | V.* | | | ''Norsku'' | Norsko | N.* | |
| ''vlastně'' | vlastně | T.* | | | ''by'' | být | V.* | |
| | ''pořad'' | pořad | N.* | |
| | ... | ... | ... | |
| ''zbankrotoval'' | zbankrotovat | V.* | | | ''zbankrotoval'' | zbankrotovat | V.* | |
| ''?'' | ? | Z.* | | | '','' | , | Z.* | |
| ... | ... | ... | | | ... | ... | ... | |
| |
Výchozí zobrazení rozšířeného kontextu, které dostanete při kliknutí na KWIC, je lineární a většinou rychlé orientaci či porozumění příliš nepomáhá. Lepší je zobrazit si dialog tak, aby v každém novém řádku byl jiný mluvčí. Přepnutím **Výchozího zobrazení** na **Promluvy** získáte právě takové setřídění. V zobrazení promluv jsou také snáze rozpoznatelné překryvy, tj. simultánní hovor dvou mluvčích. Najdete překryv na obou obrázcích? | Výchozí zobrazení rozšířeného kontextu, které dostanete při kliknutí na KWIC, je lineární a většinou rychlé orientaci či porozumění příliš nepomáhá. Lepší je zobrazit si dialog tak, aby v každém novém řádku byl jiný mluvčí. Přepnutím **Výchozího zobrazení** na **Promluvy** získáte právě takové setřídění. V zobrazení promluv jsou také snáze rozpoznatelné překryvy, tj. simultánní hovor dvou mluvčích. Najdete překryv na obou obrázcích? |
| |
[{{:kurz:dialog_vz.png | Výchozí zobrazení rozšířeného dialogu}}] | [{{:kurz:dialog_vz.png?direct&520 | Výchozí zobrazení rozšířeného dialogu}}] |
[{{:kurz:dialog_p.png | Zobrazení rozšířeného dialogu v promluvách}}] | [{{:kurz:dialog_p.png?direct&520 | Zobrazení rozšířeného dialogu v promluvách}}] |
====== Ukládání dat ====== | ====== Ukládání dat ====== |
| |
| |
<WRAP round help 40%> | <WRAP round help 40%> |
Zvolte korpus SYN2015 a hledejte: | Zvolte korpus SYN2020 a hledejte: |
* lemma ''vědomí'' | * lemma ''vědomí'' |
* slovní tvar ''vědomí'' | * slovní tvar ''vědomí'' |