AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
seznamy:strukturni_atributy_syn [2022/06/05 14:42] Jan Křivanseznamy:strukturni_atributy_syn [2022/08/25 16:56] (aktuální) Jan Křivan
Řádek 1: Řádek 1:
-==== Strukturní atributy korpusů řady SYN ====+===== Struktury a strukturní atributy korpusů řady SYN =====
  
-=== Strukturní atributy korpusu SYN2015 a novějších ===+==== Struktury korpusů psané češtiny ==== 
 + 
 +V **[[pojmy:psany|psaných]] korpusech** řady [[cnk:syn|SYN]] nacházíme počínaje korpusem SYN2015 tyto hierarchické strukturní jednotky opatřené jedinečnými identifikátory: 
 + 
 +  * **doc** - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) 
 +  * **text** - text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (např. soubor povídek, článek v novinách apod.) 
 +  * **p** - odstavec (//paragraph//
 +  * **s** - věta (//sentence//
 + 
 +V dřívějších korpusech byly struktury odlišné. V korpusech SYN2005 až SYN2013PUB se využívaly jednotky **opus** (text nebo ucelený soubor textů, např. povídková kniha nebo jedno číslo novin) a **doc** (dokument v rámci opusů, má-li nějakou vnitřní strukturaci, např. soubor povídek). V korpusu SYN2020 byly použity pouze struktury **doc** a **s**. Srovnání nabízí následující tabulka: 
 + 
 +^ Strukturní jednotky v korpusech řady SYN počínaje SYN2015 ^ Strukturní jednotky v korpusech SYN2005 až SYN2013PUB ^ Strukturní jednotky v SYN2000 ^ 
 +|  ''<doc>''    ''<opus>''  |  ''<doc>'' 
 +|  ''<text>''  |  ''<doc>''               | 
 +|  ''<p>''                  |             | 
 +|  ''<s>''      ''<s>''      ''<s>''    | 
 + 
 +Uvedené strukturní jednotky jsou vždy uspořádány hierarchicky, jejich hranice se tedy neprotínají (např. dokument nemůže být ukončen uprostřed věty). 
 + 
 +Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde ''<doc>'' značí začátek jednotky, ''</doc>'' její konec a ''<doc />'' její obsah. Pomocí značek strukturních jednotek je možné v korpusu hledat jevy, které se nějakým způsobem vztahují k hranicím různých celků. 
 + 
 +^ Dotaz ^ Vyhodnocení ^ 
 +| ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | 
 +| ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | 
 +| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | 
 + 
 +Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Přehled těchto atributů a jejich možné hodnoty u jednotlivých korpusů uvádíme níže. Společně s tím uvádíme i další, tzv. nehierarchické struktury, které jsou v některých korpusech použity. 
 + 
 + 
 +==== Strukturní atributy korpusu SYN2015 a novějších ====
  
 Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument ''<doc>''. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden ''<text>'') a dále na odstavce ''<p>'' a věty ''<s>''. Většina [[pojmy:metadata|metadat]] je vázána na atributy <doc> a <text> Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument ''<doc>''. Ten se dále dělí na jednotlivé texty (každý dokument obsahuje alespoň jeden ''<text>'') a dále na odstavce ''<p>'' a věty ''<s>''. Většina [[pojmy:metadata|metadat]] je vázána na atributy <doc> a <text>
  
-^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^+^ Struktura ^ Atribut ^ Popis ^ Hodnoty atributu ^
 | //Základní hierarchické struktury a jejich atrituby//|||| | //Základní hierarchické struktury a jejich atrituby//||||
 | doc | title | název dokumentu nebo periodika | např. //Gejzír// | | doc | title | název dokumentu nebo periodika | např. //Gejzír// |
Řádek 44: Řádek 73:
 | geo     | - | místo, kde byly v původním textu GPS souřadnice (nepárová struktura) | - | | geo     | - | místo, kde byly v původním textu GPS souřadnice (nepárová struktura) | - |
  
 +Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy.
 +
 +^ Dotaz ^ Vyhodnocení ^
 +| ''[word=<nowiki>"</nowiki>ale<nowiki>"</nowiki>] within <doc author=<nowiki>"</nowiki>Diviš, Ivan<nowiki>"</nowiki> />'' | všechny výskyty slova //ale// z děl Ivana Diviše |
 +| ''[word=<nowiki>"</nowiki>moc<nowiki>"</nowiki>] within <doc txtype_group=<nowiki>"</nowiki>(NFC.*)<nowiki>|</nowiki>(NMG.*)<nowiki>"</nowiki> />'' | všechny výskyty slova //moc// v dokumentech označených jako oborová literatura a publicistika |
  
-=== Strukturní atributy korpusů z let 2005 až 2013 ===+==== Strukturní atributy korpusů z let 2005 až 2013 ====
  
 Většina strukturních atributů v korpusech [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2006pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a v korpusu [[cnk:syn|SYN]] do verze 3 je vázána na strukturní jednotku ''<opus>''. Základními strukturními atributy v korpusech psané češtiny jsou: Většina strukturních atributů v korpusech [[cnk:syn2005|SYN2005]], [[cnk:syn2006pub|SYN2006PUB]], [[cnk:syn2006pub|SYN2009PUB]], [[cnk:syn2010|SYN2010]], [[cnk:syn2013pub|SYN2013PUB]] a v korpusu [[cnk:syn|SYN]] do verze 3 je vázána na strukturní jednotku ''<opus>''. Základními strukturními atributy v korpusech psané češtiny jsou:
Řádek 66: Řádek 100:
 | s | id | identifikátor věty | | s | id | identifikátor věty |
  
-=== Strukturní atributy korpusu SYN2000 ===+==== Strukturní atributy korpusu SYN2000 ====
  
 V korpusu [[cnk:syn2000|SYN2000]] je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce ''<doc>'': V korpusu [[cnk:syn2000|SYN2000]] je nabídka strukturních atributů výrazně omezená, všechny se navíc vážou ke strukturní jednotce ''<doc>'':
Řádek 75: Řádek 109:
 | ::: | temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu ''rokvyd'') | | ::: | temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu ''rokvyd'') |
  
-Na základě jednoznačného identifikátoru ''doc.opus'' je možné zjistit všechny dodatečné informace o textu v [[seznamy:index|seznamech]] děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu [[cnk:syn|SYN]] byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem. +Na základě jednoznačného identifikátoru ''doc.opus'' je možné zjistit všechny dodatečné informace o textu v [[seznamy:zdrojove_texty_korpusu|seznamech]] děl korpusu SYN2000. Při začlenění korpusu SYN2000 do korpusu [[cnk:syn|SYN]] byly všechny texty opatřeny anotací odpovídající pozdějším zvyklostem.