Nastavení

Subkorpus

Subkorpus (někdy také virtuální korpus, nebo virtuální subkorpus) je podmnožina (zdrojového) korpusu, která je určena výčtem strukturních jednotek nebo podmínkou, která tyto jednotky na základě strukturních atributů vymezuje. Subkorpus tak může být tvořen množinou děl (jednotka <opus>), dokumentu (<doc>) ale také vět (<s>), příp. i dílem jediným.

Při vytváření subkorpusu vycházíme ze zdrojového korpusu a z jeho anotace děl (opusů), které ho tvoří. Na základě strukturních atributů, které daný korpus obsahuje, můžeme vymezovat subkorpusy z děl určitého zaměření a dospět tak k reprezentativnosti, která je účelná a přiměřená pro konkrétní typ výzkumné otázky.

Např. zdrojový korpus SYN2010 umožňuje vytvořit subkorpus pouze beletristických textů (podmínka by mohla být formulována např. <opus txtype_group=„beletrie“ />), nebo děl a časopisů vydaných v letech 2007 a 2008 (podmínka <opus rokvyd=2007|2008„ />), případně subkorpus konkrétního autora (např. <opus autor=„London, Jack“ />). Při formulování podmínek je možné využívat regulární výrazy i další specifické vlastnosti dotazovacího jazyka.

Související odkazy