Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- kurz:zobrazeni_dotazu [2021/03/04 13:55] – jankocek
+++ kurz:zobrazeni_dotazu [2021/03/09 10:14] – [Vnitřní struktura korpusu] vaclavcvrcek
@@ Řádek 5: / Řádek 5: @@
 ===== Word – lemma – tag =====
-Tato „klíčová korpusová trojice“ je obsažena už v názvech různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]].  Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob.
+Tato „klíčová korpusová trojice“ je se používá ke kladení různých typů dotazů, které nabízejí jak analýzu jednoho konkrétního tvaru (//word//), tak celého paradigmatu/lexému (//lemma//). Navíc je u různých typů dotazů možné upřesnit slovní druh či další morfologické informace obsažené v tzv. značce, [[pojmy:tag|morfologickém tagu]].  Tag sumarizuje gramatickou informaci o hledaném slově v konkrétním kontextu a připisuje se většinou automaticky v průběhu [[pojmy:morfologicka_analyza|morfologické analýzy]]. V současné době používaný tagset pro češtinu obsahuje [[seznamy:tagy|16 pozic]] umožňujících specifikaci kategorií typu slovnědruhová příslušnost, pád, číslo či čas a způsob.
 ^ Klíčový pojem ^ Význam ^
@@ Řádek 16: / Řádek 16: @@
 ===== Vnitřní struktura korpusu =====
-Nejprve si objasníme, v jaké struktuře jsou data, jež [[manualy:kontext:index|rozhraní KonText]] zpřístupňuje, uložena a zpracovávána. Podrobný popis poskytuje sekce [[pojmy:struktura_korpusu|Struktura korpusu]], zde alespoň stručný příklad toho, jak vypadají ukládané texty, a to včetně hlavičky obsahující [[pojmy:metadata|metainformace]]. Metainformace v použitém příkladu se týkají psaného textu z korpusu [[cnk:syn2015|SYN2015]], přičemž [[pojmy:doc|doc]] je název konkrétního textu((V korpusech [[cnk:syn2005|SYN2005]] a [[cnk:syn2010|SYN2010]] se v tomto významu používá strukturní atribut ''<opus>''.)) a dále následuje: titul, podtitul, jméno autora, vydání, nakladatel, místo vydání, rok vydání, rok prvního vydání, jméno překladatele, zdrojový jazyk, pohlaví autora, pohlaví překladatele, textová skupina ([[pojmy:txtype_group|txtype_group]]), textový typ ([[pojmy:txtype|txtype]]), žánrová skupina, [[pojmy:genre|žánr]], [[pojmy:medium|médium]], periodicita, cílové publikum, [[wp>International_Standard_Book_Number|ISBN]]/[[wp>International_Standard_Serial_Number|ISSN]], bibliografická informace, id publikace, id dokumentu (viz také [[seznamy:index|přehledy a seznamy značek]] užívaných k vkládání metainformací do textů).
+Nejprve si objasníme, v jaké struktuře jsou data, jež [[manualy:kontext:index|rozhraní KonText]] zpřístupňuje, uložena a zpracovávána. Podrobný popis poskytuje sekce [[pojmy:struktura_korpusu|Struktura korpusu]], zde alespoň stručný příklad toho, jak vypadají ukládané texty, a to včetně hlavičky obsahující [[pojmy:metadata|metainformace]]. Metainformace v použitém příkladu se týkají psaného textu z korpusu [[cnk:syn2020|SYN2020]], přičemž [[pojmy:doc|doc]] je struktura odpovídající celému dílu s metainformacemi: titul, podtitul, jméno autora, vydání, nakladatel, místo vydání, rok vydání, rok prvního vydání, jméno překladatele, zdrojový jazyk, pohlaví autora, pohlaví překladatele, textová skupina ([[pojmy:txtype_group|txtype_group]]), textový typ ([[pojmy:txtype|txtype]]), žánrová skupina, [[pojmy:genre|žánr]], [[pojmy:medium|médium]], periodicita, cílové publikum, [[wp>International_Standard_Book_Number|ISBN]]/[[wp>International_Standard_Serial_Number|ISSN]], bibliografická informace, id publikace, id dokumentu (viz také [[seznamy:index|přehledy a seznamy značek]] užívaných k vkládání metainformací do textů).
-**Vertikála** je interní formát korpusů, do něhož jsou všechny texty vstupující do korpusu převedeny. Zjednodušená ukázka vertikály z korpusu SYN2015:
+**Vertikála** je interní formát korpusů, do něhož jsou všechny texty vstupující do korpusu převedeny. Zjednodušená ukázka vertikály z korpusu SYN2020:
 <code>
-<doc title="Zářivá světla velkoměsta" subtitle="" author="McInerney, Jay" issue="" publisher="Volvox Globator" pubplace="Praha" pubyear="1994"
+<doc title="Svět podle Clarksona" subtitle="" author="Clarkson, Jeremy" issue="" publisher="Dokořán" pubplace="Praha"
-first_published="1994" translator="Hrubý, Jiří" srclang="en: angličtina" authsex="M: muž" transsex="M: muž" txtype_group="FIC: beletrie"
+pubyear="2016" first_published="2016" translator="Drobek, Aleš" srclang="en: angličtina" authsex="M: muž" transsex="M: muž"
-txtype="NOV: próza" genre_group="X: neuvedeno" genre="X: neuvedeno" medium="B: kniha" periodicity="NP: neperiodická publikace"
+txtype_group="FIC: beletrie" txtype="COL: kratší próza" genre_group="X: neuvedeno" genre="X: neuvedeno" medium="B: kniha"
-audience="GEN: obecné publikum" isbnissn="80-85769-35-2" biblio="McInerney, Jay (1994): Zářivá světla velkoměsta. Překlad: Hrubý, Jiří.
+periodicity="NP: neperiodická publikace" audience="GEN: obecné publikum" isbnissn="978-80-7363-760-6"
-Praha: Volvox Globator." id="zarsvvel">
+biblio="Clarkson, Jeremy (2016): Svět podle Clarksona. Překlad: Drobek, Aleš. Praha: Dokořán." id="clark_svetpodlec">
-<text section="" section_orig="" author="" id="zarsvvel:1">
+<text author="" section="" section_orig="" id="clark_svetpodlec:1">
 ...
-<p type="normal" id="zarsvvel:1:6">
+<p id="clark_svetpodlec:1:1466">
-<s id="zarsvvel:1:6:1">
+<s id="clark_svetpodlec:1:1466:1">
-Jak     jak     Db--------------
+V       v       RR--6----------
-jsi     být     VB-S---2P-AA---I
+Norsku  Norsko  NNNS6-----A----
-vlastně vlastně TT--------------
+by      být     Vc----------I--
-zbankrotoval    zbankrotovat    VpMS----R-AA---P
+pořad   pořad   NNIS4-----A----
-?       ?       Z:--------------
+<hi rend="italic">
-"       "       Z:--------------
+Chcete  chtít   VB-P---2P-AAI--
-zeptal  zeptat  VpIS----R-AA---P
+být     být     Vf--------A-I--
-se      se      P7--4-----------
+milionářem      milionář        NNMS7-----A----
-Bill    Bill    NNMS1-----A-----
+<g/>
-.       .       Z:--------------
+?       ?       Z:-------------
+</hi>
+zbankrotoval    zbankrotovat    VpMS----R-AAP--
+<g/>
+,       ,       Z:-------------
+protože protože J,-------------
+odkud   odkud   Db-------------
+chcete  chtít   VB-P---2P-AAI--
+brát    brát    Vf--------A-I--
+záludné záludný AAFP4----1A----
+otázky  otázka  NNFP4-----A----
+<g/>
+,       ,       Z:-------------
+které   který   P4FP1----------
+by      být     Vc----------I--
+chránily        chránit VpFP----R-AAI--
+nejvyšší        vysoký  AAFP4----3A----
+odměny  odměna  NNFP4-----A----
+<g/>
+,       ,       Z:-------------
+když    když    J,-------------
+tam     tam     Db-------------
+lidé    člověk  NNMP1-----A----
+vědí    vědět   VB-P---3P-AAI--
+úplně   úplně   Dg-------1A----
+všechno všechen PLNS4----------
+<g/>
+?       ?       Z:-------------
 </s>
 </p>
@@ Řádek 48: / Řádek 75: @@
 </code>
-<wrap lo>Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]). Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>''. Samotný text je uspořádán do sloupců. První sloupec představuje originální text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy).</wrap>
+Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]), a končí značkou ''</doc>''. Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>'' (část díla mající stejného autora, typicky článek v novinách nebo v časopise). ''<text>'' se dále člení do odstavců (''<p>'') a vět (''<s>''). Kromě těchto hierarchických struktur se v korpusu objevují i struktury nehierarchické, např. ''<hi>'' (označuje řezy písma, v tomto případě kurzívu) a ''<g/>'' (označuje místo, kde v původním textu //nebyla// mezera -- tato informace umožňuje zobrazení textu v původní podobě).
-<wrap lo>Všechny struktury včetně vět musí mít otevírací i ukončovací značku; po ''<s s id=%%"%%zarsvvel:1:6:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]).</wrap>
+Všechny struktury včetně vět musejí mít otevírací i ukončovací značku; po ''<s id=%%"%%clark_svetpodlec:1:1466:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]). Výjimkou je v tomto případě značka ''<g/>'', která je jako nepárová ihned ukončena; nevyznačuje totiž rozsah (od--do), ale umístění.
+Samotný text je ve vertikále uspořádán do sloupců. První sloupec představuje původní text (atribut [[pojmy:word|word]]), další sloupce jsou pak vyhrazeny pro jednotlivé [[pojmy:atributy_pozicni|poziční atributy]] (v tomto případě [[pojmy:lemma|lemma]] a [[pojmy:tag|tag]], následovat ale mohou i další atributy).
 Zjednodušeně uspořádání dat v lemmatizovaném a tagovaném korpusu vystihuje tato tabulka s týmiž třemi sloupci, jaké obsahuje předchozí kompletní ukázka vertikály:
 ^ word ^ lemma ^ tag ^
-| ''Jak'' | jak | Db.* |
+| ''V'' | v | R.* |
-| ''jsi'' | být | V.* |
+| ''Norsku'' | Norsko | N.* |
-| ''vlastně'' | vlastně | T.* |
+| ''by'' | být | V.* |
+| ''pořad'' | pořad | N.* |
+| ... | ... | ... |
 | ''zbankrotoval'' | zbankrotovat | V.* |
-| ''?'' | ? | Z.* |
+| '','' | , | Z.* |
 | ... | ... | ... |
@@ Řádek 129: / Řádek 160: @@
 Výchozí zobrazení rozšířeného kontextu, které dostanete při kliknutí na KWIC, je lineární a většinou rychlé orientaci či porozumění příliš nepomáhá. Lepší je zobrazit si dialog tak, aby v každém novém řádku byl jiný mluvčí. Přepnutím **Výchozího zobrazení** na **Promluvy** získáte právě takové setřídění. V zobrazení promluv jsou také snáze rozpoznatelné překryvy, tj. simultánní hovor dvou mluvčích. Najdete překryv na obou obrázcích?
-[{{:kurz:dialog_vz.png | Výchozí zobrazení rozšířeného dialogu}}]
+[{{:kurz:dialog_vz.png?direct&520 | Výchozí zobrazení rozšířeného dialogu}}]
-[{{:kurz:dialog_p.png | Zobrazení rozšířeného dialogu v promluvách}}]
+[{{:kurz:dialog_p.png?direct&520 | Zobrazení rozšířeného dialogu v promluvách}}]
 ====== Ukládání dat ======
@@ Řádek 169: / Řádek 200: @@
 <WRAP round help 40%>
-Zvolte korpus SYN2015 a hledejte:
+Zvolte korpus SYN2020 a hledejte:
   * lemma ''vědomí''
   * slovní tvar  ''vědomí''

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence