====== Strukturní jednotky a atributy ====== Každý korpus je strukturován do nějakých (většinou) hierarchicky uspořádaných jednotek. Takové uspořádání (zachycené pomocí [[pojmy:metadata|metadat]]) se může u každého korpusu lišit. Důvodem je fakt, že každému typu dat vyhovuje jiná vnitřní [[pojmy:struktura_korpusu|strukturace]]. Každý korpus se tak člení na různé **strukturní jednotky** a ke každé jednotce (v závislosti na anotaci) náleží jeden nebo více **strukturních atributů**. ===== Strukturní jednotky ===== Rozdíly mezi strukturními jednotkami korpusů psané a mluvené češtiny jsou dané rozdílnou povahou těchto dat. Zároveň se korpusy od sebe můžou lišit typem i počtem strukturních jednotek (nápadný je v tomto směru zejména rozdíl mezi [[cnk:syn2000|SYN2000]], prvním velkým korpusem ČNK, a ostatními korpusy [[cnk:syn|řady SYN]]). Struktury podle typu korpusu jsou představeny na zvláštních stránkách: * [[seznamy:strukturni_atributy_syn#struktury_korpusu_psane_cestiny|Strukturní jednotky korpusů psané češtiny]] * [[seznamy:strukturni_atributy_mluvene#struktury_korpusu_mluvene_cestiny|Strukturní jednotky korpusů mluvené češtiny]] * [[seznamy:strukturni_atributy_intercorp#struktury_korpusu_intercorp|Strukturní jednotky paralelních korpusů]] Z obecného pohledu je další strukturní jednotkou i [[pojmy:pozice|pozice]], tj. nejmenší jednotka, na niž je každý text v průběhu [[pojmy:token|tokenizace]] rozčleněn. O pozicích se však jako o strukturách běžně neuvažuje. Vlastnosti pozic a jejich atributy popisuje samostatný článek o [[pojmy:atributy_pozicni|pozičních atributech]]. ===== Strukturní atributy ===== Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy:metadata|metadata]]), a to prostřednictvím strukturních atributů. Všechny jednotky mají standardně atribut ''id'', který slouží pro jednoznačnou identifikaci strukturní jednotky v korpusu (nebo v rámci hierarchicky vyšší strukturní jednotky). Např. '''' //Sport 5. 4. 2012// v korpusu [[cnk:syn2015|SYN2015]] má následující hodnotu atributu ''id'': //id=%%"%%sp120405%%"%%//, analogicky '''' //Lidové noviny, 28. 4. 2008// v korpusu [[cnk:syn2010|SYN2010]] má ''id="ln080428"''. Dokumenty nebo opusy se dále dělí na menší strukturní jednotky (např. '''' nebo ''''), každá z nich má přitom svůj jednoznačný identifikátor. Strukturní atributy podle typu korpusu jsou představeny na zvláštních stránkách. Strukturní atributy korpusů psané češtiny: * [[seznamy:strukturni_atributy_syn##strukturni_atributy_korpusu_syn2015_a_novejsich|korpusy SYN2015 a novější]] * [[seznamy:strukturni_atributy_syn#strukturni_atributy_korpusu_z_let_2005_az_2013|korpusy z let 2005 až 2013]] * [[seznamy:strukturni_atributy_syn#strukturni_atributy_korpusu_syn2000|korpus SYN2000]] Strukturní atributy korpusů mluvené češtiny: * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|korpus ORTOFON a spojený korpus ORAL]] * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_orator|korpus ORATOR]] * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_dialekt|korpus DIALEKT]] * [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_oral2006_oral2008_a_oral2013|korpusy ORAL2006, ORAL2008 a ORAL2013]] Strukturní atributy paralelních korpusů: * [[seznamy:strukturni_atributy_intercorp#strukturni_atributy_korpusu_intercorp|korpus InterCorp]] ==== Související odkazy ==== [[pojmy:dotazovaci_jazyk|Dotazovací jazyk]] • [[pojmy:atributy_pozicni|Poziční atributy]] • [[pojmy:struktura_korpusu|Struktura korpusu]] • [[kurz:subkorpusy#podminky_within_hledani_v_ramci_urcitych_struktur|Hledání pomocí podmínky within]]