Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
seznamy:strukturni_atributy_syn [2022/06/07 21:04] – jankrivan | seznamy:strukturni_atributy_syn [2022/08/25 16:56] (aktuální) – jankrivan |
---|
===== Struktury a strukturní atributy u korpusů řady SYN ===== | ===== Struktury a strukturní atributy korpusů řady SYN ===== |
| |
==== Struktury korpusů psané češtiny ==== | ==== Struktury korpusů psané češtiny ==== |
| |
| V **[[pojmy:psany|psaných]] korpusech** řady [[cnk:syn|SYN]] nacházíme počínaje korpusem SYN2015 tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory: |
| |
V **[[pojmy:psany|psaných]] korpusech** řady [[cnk:syn|SYN]] nacházíme tyto strukturní jednotky opatřené jedinečnými identifikátory: | * **doc** - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) |
| * **text** - text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (např. soubor povídek, článek v novinách apod.) |
| * **p** - odstavec (//paragraph//) |
| * **s** - věta (//sentence//) |
| |
| V dřívějších korpusech byly struktury odlišné. V korpusech SYN2005 až SYN2013PUB se využívaly jednotky **opus** (text nebo ucelený soubor textů, např. povídková kniha nebo jedno číslo novin) a **doc** (dokument v rámci opusů, má-li nějakou vnitřní strukturaci, např. soubor povídek). V korpusu SYN2020 byly použity pouze struktury **doc** a **s**. Srovnání nabízí následující tabulka: |
| |
^ Strukturní jednotky v korpusech řady SYN počínaje SYN2015 ^ Strukturní jednotky v korpusech SYN2005 až SYN2013PUB ^ Strukturní jednotky v SYN2000 ^ | ^ Strukturní jednotky v korpusech řady SYN počínaje SYN2015 ^ Strukturní jednotky v korpusech SYN2005 až SYN2013PUB ^ Strukturní jednotky v SYN2000 ^ |
| ''<s>'' | ''<s>'' | ''<s>'' | | | ''<s>'' | ''<s>'' | ''<s>'' | |
| |
| Uvedené strukturní jednotky jsou vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty). |
| |
* **opus** - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - tato úroveň byla užívána v korpusech [[cnk:syn2005|SYN2005]] až [[cnk:syn2013pub|SYN2013PUB]] | Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde ''<doc>'' značí začátek jednotky, ''</doc>'' její konec a ''<doc />'' její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků. |
* **doc** - různá platnost v různých korpusech: | |
- text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) - v korpusu [[cnk:syn2000|SYN2000]]; v korpusu [[cnk:syn2015|SYN2015]] a novějších | |
- v korpusech s jednotkou ''<opus>'': dokument v rámci opusů, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek) | |
* **text** - v korpusech s hierarchicky nejvyšší jednotkou ''<doc>'': text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (viz např. výše zmíněný soubor povídek, článek v novinách apod.) | |
* **p** - odstavec | |
* **s** - věta (//sentence//); každý dokument se dále dělí na jednotlivé (taktéž identifikačními čísly opatřené) věty | |
| |
Strukturní jednotky jsou přitom vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty). | |
| |
Schematické znázornění hierarchie strukturních jednotek v korpusech řady SYN: | |
| |
| |
Strukturní atributy se obvykle zapisují pomocí špičatých závorek, kde ''<doc>'' značí začátek jednotky, ''</doc>'' její konec a ''<doc />'' její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků. | |
| |
^ Dotaz ^ Vyhodnocení ^ | ^ Dotaz ^ Vyhodnocení ^ |
| ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | | ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | |
| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | | | ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | |
| |
| Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou v některých korpusech použity. |
| |
| |
| geo | - | místo, kde byly v původním textu GPS souřadnice (nepárová struktura) | - | | | geo | - | místo, kde byly v původním textu GPS souřadnice (nepárová struktura) | - | |
| |
| Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy. |
| |
| ^ Dotaz ^ Vyhodnocení ^ |
| | ''[word=<nowiki>"</nowiki>ale<nowiki>"</nowiki>] within <doc author=<nowiki>"</nowiki>Diviš, Ivan<nowiki>"</nowiki> />'' | všechny výskyty slova //ale// z děl Ivana Diviše | |
| | ''[word=<nowiki>"</nowiki>moc<nowiki>"</nowiki>] within <doc txtype_group=<nowiki>"</nowiki>(NFC.*)<nowiki>|</nowiki>(NMG.*)<nowiki>"</nowiki> />'' | všechny výskyty slova //moc// v dokumentech označených jako oborová literatura a publicistika | |
| |
==== Strukturní atributy korpusů z let 2005 až 2013 ==== | ==== Strukturní atributy korpusů z let 2005 až 2013 ==== |
| ::: | temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu ''rokvyd'') | | | ::: | temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu ''rokvyd'') | |
| |
Na základě jednoznačného identifikátoru ''doc.opus'' je možné zjistit všechny dodatečné informace o textu v [[seznamy:index|seznamech]] děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu [[cnk:syn|SYN]] byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem. | Na základě jednoznačného identifikátoru ''doc.opus'' je možné zjistit všechny dodatečné informace o textu v [[seznamy:zdrojove_texty_korpusu|seznamech]] děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu [[cnk:syn|SYN]] byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem. |
| |