Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
seznamy:strukturni_atributy_syn [2022/06/05 14:24] – jankrivan | seznamy:strukturni_atributy_syn [2022/06/08 16:14] – [Struktury korpusů psané češtiny] jankrivan | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
- | ==== Strukturní | + | ===== Struktury a strukturní |
- | === Strukturní atributy korpusu SYN2015 a novějších === | + | ==== Struktury korpusů psané češtiny ==== |
+ | |||
+ | V **[[pojmy: | ||
+ | |||
+ | * **doc** - text nebo ucelený soubor textů (povídková kniha, jedno číslo novin) | ||
+ | * **text** - text či jeho část v rámci dokumentu, má-li nějakou vnitřní strukturaci (např. soubor povídek, článek v novinách apod.) | ||
+ | * **p** - odstavec (// | ||
+ | * **s** - věta (// | ||
+ | |||
+ | V dřívějších korpusech byly struktury odlišné. V korpusech SYN2005 až SYN2013PUB se využívaly jednotky **opus** (text nebo ucelený soubor textů, např. povídková kniha nebo jedno číslo novin) a **doc** (dokument v rámci opusů, má-li nějakou vnitřní strukturaci, | ||
+ | |||
+ | ^ Strukturní jednotky v korpusech řady SYN počínaje SYN2015 ^ Strukturní jednotky v korpusech SYN2005 až SYN2013PUB ^ Strukturní jednotky v SYN2000 ^ | ||
+ | | ''< | ||
+ | | ''< | ||
+ | | ''< | ||
+ | | ''< | ||
+ | |||
+ | Uvedené strukturní jednotky jsou vždy uspořádány hierarchicky, | ||
+ | |||
+ | Strukturní jednotky se obvykle zapisují pomocí špičatých závorek, kde ''< | ||
+ | |||
+ | ^ Dotaz ^ Vyhodnocení ^ | ||
+ | | '' | ||
+ | | ''< | ||
+ | | '' | ||
+ | |||
+ | Strukturním jednotkám (strukturám) mohou být přiřazeny další údaje (tzv. [[pojmy: | ||
+ | |||
+ | |||
+ | ==== Strukturní atributy korpusu SYN2015 a novějších | ||
Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument ''< | Základní jednotkou korpusů je ve shodě s mezinárodní konvencí dokument ''< | ||
- | ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty | + | ^ Struktura ^ Atribut ^ Popis ^ Hodnoty atributu |
| // | | // | ||
| doc | title | název dokumentu nebo periodika | např. //Gejzír// | | | doc | title | název dokumentu nebo periodika | např. //Gejzír// | | ||
Řádek 24: | Řádek 53: | ||
| ::: | isbnissn | ISBN/ISSN | např. // | | ::: | isbnissn | ISBN/ISSN | např. // | ||
| ::: | biblio | generovaný bibliografický údaj | např. //Diviš, Ivan (2009): Gejzír. Praha: Odeon.// | | | ::: | biblio | generovaný bibliografický údaj | např. //Diviš, Ivan (2009): Gejzír. Praha: Odeon.// | | ||
+ | | ::: | syn | atribut používaný pouze u korpusů [[cnk: | ||
| ::: | id | jednoznačný identifikátor dokumentu | např. // | | ::: | id | jednoznačný identifikátor dokumentu | např. // | ||
| text | [[seznamy: | | text | [[seznamy: | ||
Řádek 36: | Řádek 66: | ||
| //Další struktury (použité počínaje korpusy SYN2020 a SYN (verze 9))// |||| | | //Další struktury (použité počínaje korpusy SYN2020 a SYN (verze 9))// |||| | ||
| head | - | označení nadpisů - tam, kde byly zachyceny ve vstupním formátu | - | | | head | - | označení nadpisů - tam, kde byly zachyceny ve vstupním formátu | - | | ||
- | | g | - | místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70< | + | | g | - | místo, kde mezi dvěma po sobě následujícími tokeny nebyla v textu mezera (nepárová struktura), např. „70< |
- | | table | - | místo, kde byla v původním textu tabulka (nepárová struktura) | | + | | table | - | místo, kde byla v původním textu tabulka (nepárová struktura) |
- | | ref | - | místo, kde byl v původním textu webový odkaz (nepárová struktura) | | + | | ref | - | místo, kde byl v původním textu webový odkaz (nepárová struktura) |
- | | email | - | místo, kde byla v původním textu e-mailová adresa (nepárová struktura) | | + | | email | - | místo, kde byla v původním textu e-mailová adresa (nepárová struktura) |
- | | graphic | - | místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura) | | + | | graphic | - | místo, kde byl v původním textu grafický symbol, rovnice apod. (nepárová struktura) |
- | | geo | - | místo, kde byly v původním textu GPS souřadnice (nepárová struktura) | | + | | geo | - | místo, kde byly v původním textu GPS souřadnice (nepárová struktura) |
+ | Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy. | ||
- | === Strukturní atributy korpusů z let 2005 až 2013 === | + | ^ Dotaz ^ Vyhodnocení ^ |
+ | | '' | ||
+ | | '' | ||
+ | |||
+ | ==== Strukturní atributy korpusů z let 2005 až 2013 ==== | ||
Většina strukturních atributů v korpusech [[cnk: | Většina strukturních atributů v korpusech [[cnk: | ||
- | ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty | + | ^ Struktura ^ Atribut ^ Popis ^ |
| opus | autor | autor/ | | opus | autor | autor/ | ||
- | | | + | | ::: | nazev | název opusu (hlavní titul) | |
- | | | + | | ::: | nakladatel | organizace, která dílo vydala | |
- | | | + | | ::: | mistovyd | místo vydání | |
- | | | + | | ::: | rokvyd | rok vydání té verze opusu, která je zařazena do korpusu (nemusí se tedy jednat o první vydání díla) | |
- | | | + | | ::: | isbnissn | identifikátor ISBN, příp. ISSN | |
- | | | + | | ::: | preklad | překladatel díla (nejedná-li se o původně české dílo) | |
- | | | + | | ::: | [[pojmy: |
- | | | + | | ::: | [[pojmy: |
- | | | + | | ::: | [[pojmy: |
- | | | + | | ::: | [[pojmy: |
- | | | + | | ::: | [[pojmy: |
- | | | + | | ::: | syn | atribut používaný pouze u nereferenčního korpusu [[cnk: |
+ | | doc | id | identifikátor dokumentu v rámci opusu| | ||
+ | | s | id | identifikátor věty | | ||
- | === Strukturní atributy korpusu SYN2000 === | + | ==== Strukturní atributy korpusu SYN2000 |
V korpusu [[cnk: | V korpusu [[cnk: | ||
- | * opus - identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu '' | ||
- | * txtype - typ textu | ||
- | * temp - rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu '' | ||
- | Na základě jednoznačného identifikátoru | + | ^ Struktura ^ Atribut ^ Popis ^ |
+ | | doc | opus | identifikátor díla (v pozdějších korpusech řady SYN odpovídá atributu | ||
+ | | ::: | txtype | typ textu | | ||
+ | | ::: | temp | rok vydání díla (v pozdějších korpusech řady SYN odpovídá atributu '' | ||
- | Podle hodnot, jichž jednotlivé strukturní atributy nabývají, je možné upřesňovat hledání v korpusech, omezovat výsledky pouze na určitou skupinu struktur, příp. i vytvářet subkorpusy. | + | Na základě jednoznačného identifikátoru |
- | + | ||
- | ^ Dotaz ^ Vyhodnocení ^ | + | |
- | | '' | + | |
- | | '' | + | |