AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:strukturni_atributy_syn [2022/06/07 21:39] – [Struktury korpusů psané češtiny] Jan Křivanseznamy:strukturni_atributy_syn [2022/08/25 16:56] (aktuální) Jan Křivan
Řádek 1: Řádek 1:
-===== Struktury a strukturní atributy korpusů řady SYN =====+===== Struktury a strukturní atributy korpusů řady SYN =====
  
 ==== Struktury korpusů psané češtiny ==== ==== Struktury korpusů psané češtiny ====
Řádek 6: Řádek 6:
  
   * **doc** - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin)   * **doc** - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin)
-  * **text** - text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek, článek v novinách apod.) +  * **text** - text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (např. soubor povídek, článek v novinách apod.) 
-  * **p** - odstavec +  * **p** - odstavec (//paragraph//) 
-  * **s** - věta (//sentence//); každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) věty+  * **s** - věta (//sentence//)
  
-Odlišnosti ve strukturních jednotkách v korpusech SYN2005 až SYN2013PUB+V dřívějších korpusech byly struktury odlišné. V korpusech SYN2005 až SYN2013PUB se využívaly jednotky **opus** (text nebo ucelený soubor textů, např. povídková kniha nebo jedno číslo novin) **doc** (dokument v rámci opusů, má-li nějakou vnitřní strukturacinapř. soubor povídek). V korpusu SYN2020 byly použity pouze struktury **doc** a **s**. Srovnání nabízí následující tabulka:
- +
-  * **opus** text nebo ucelený soubor textů (povídková knihajedno číslo novin) +
-  * **doc** dokument v rámci opusů, má-li nějakou vnitřní strukturaci (viz např. soubor povídek)+
  
 ^ Strukturní jednotky v korpusech řady SYN počínaje SYN2015 ^ Strukturní jednotky v korpusech SYN2005 až SYN2013PUB ^ Strukturní jednotky v SYN2000 ^ ^ Strukturní jednotky v korpusech řady SYN počínaje SYN2015 ^ Strukturní jednotky v korpusech SYN2005 až SYN2013PUB ^ Strukturní jednotky v SYN2000 ^
Řádek 21: Řádek 18:
 |  ''<s>''      ''<s>''      ''<s>''    | |  ''<s>''      ''<s>''      ''<s>''    |
  
-Strukturní jednotky jsou přitom vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty).+Uvedené strukturní jednotky jsou vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty).
  
 Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde ''<doc>'' značí začátek jednotky, ''</doc>'' její konec a ''<doc />'' její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků. Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde ''<doc>'' značí začátek jednotky, ''</doc>'' její konec a ''<doc />'' její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků.
Řádek 29: Řádek 26:
 | ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu |
 | ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | | ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) |
 +
 +Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou v některých korpusech použity.
  
  
Řádek 110: Řádek 109:
 | ::: | temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu ''rokvyd'') | | ::: | temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu ''rokvyd'') |
  
-Na základě jednoznačného identifikátoru ''doc.opus'' je možné zjistit všechny dodatečné informace o textu v [[seznamy:index|seznamech]] děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu [[cnk:syn|SYN]] byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem. +Na základě jednoznačného identifikátoru ''doc.opus'' je možné zjistit všechny dodatečné informace o textu v [[seznamy:zdrojove_texty_korpusu|seznamech]] děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu [[cnk:syn|SYN]] byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem.