Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verze | Následující verzeObě strany příští revize |
kurz:zobrazeni_dotazu [2021/03/09 09:54] – [Word – lemma – tag] vaclavcvrcek | kurz:zobrazeni_dotazu [2021/03/09 10:06] – [Vnitřní struktura korpusu] vaclavcvrcek |
---|
</code> | </code> |
| |
Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]). Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>'' (část díla mající stejného autora, typicky článek v novinách nebo v časopise). ''<text>'' se dále člení do odstavců (''<p>'') a vět (''<s>''). Kromě těchto hierarchických struktur se v korpusu objevují i struktury nehierarchické, např. ''<hi>'' (označuje řezy písma, v tomto případě kurzívu) a ''<g/>'' (označuje místo, kde v původním textu //nebyla// mezera -- tato informace umožňuje zobrazení textu v původní podobě). | Každý dokument začíná specifickou značkou např. ''<doc ...>'', za kterou následují jeho charakteristiky (zachycené [[pojmy:atributy_strukturni|strukturními atributy]]), a končí značkou ''</doc>''. Může být dál vnitřně členěn do částí, jejichž hranice se označují pomocí atributu ''<text>'' (část díla mající stejného autora, typicky článek v novinách nebo v časopise). ''<text>'' se dále člení do odstavců (''<p>'') a vět (''<s>''). Kromě těchto hierarchických struktur se v korpusu objevují i struktury nehierarchické, např. ''<hi>'' (označuje řezy písma, v tomto případě kurzívu) a ''<g/>'' (označuje místo, kde v původním textu //nebyla// mezera -- tato informace umožňuje zobrazení textu v původní podobě). |
| |
Všechny struktury včetně vět musejí mít otevírací i ukončovací značku; po ''<s s id=%%"%%clark_svetpodlec:1:1466:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]). Výjimkou je v tomto případě značka ''<g/>'', která je jako nepárová ihned ukončena; nevyznačuje totiž rozsah (od--do), ale místo. | Všechny struktury včetně vět musejí mít otevírací i ukončovací značku; po ''<s s id=%%"%%clark_svetpodlec:1:1466:1%%"%%>'', tedy identifikátoru začátku této konkrétní věty v rámci konkrétního opusu, tudíž následuje: ''</s>'' a stejně tak jsou ukončeny pomocí lomítka i všechny ostatní [[pojmy:atributy_strukturni|strukturní atributy]] (více v [[subkorpusy#hledame_v_ramci_jedne_vety|7. lekci]]). Výjimkou je v tomto případě značka ''<g/>'', která je jako nepárová ihned ukončena; nevyznačuje totiž rozsah (od--do), ale místo. |