Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| cnk:orator [2025/04/28 13:25] – [ORATOR v2 (2020)] martinawaclawicova | cnk:orator [2025/05/28 14:22] (aktuální) – [Jak citovat] michalkren | ||
|---|---|---|---|
| Řádek 3: | Řádek 3: | ||
| Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, | Korpus ORATOR obsahuje monologické projevy pronesené rodilými mluvčími češtiny při příležitostech, | ||
| - | Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu [[cnk: | + | Transkripční pravidla, způsob propojení se zvukem a většina metadat jsou stejné jako v korpusu [[cnk: |
| <WRAP 45%> | <WRAP 45%> | ||
| Řádek 18: | Řádek 18: | ||
| ===== Složení korpusu a sběr dat ===== | ===== Složení korpusu a sběr dat ===== | ||
| - | Cílem korpusu je představit různé typy monologů, které se v mluveném jazyce objevují a jež jsme schopni zachytit. Nejedná se tedy pouze o přednášky, | + | Cílem korpusu je představit různé typy monologů, které se v mluveném jazyce objevují a jež jsme schopni zachytit. Nejedná se tedy pouze o přednášky, |
| + | |Strukturní | ||
| Přestože jde o monology, objevují se zde i nahrávky s větším počtem mluvčích. K těm patří především projevy střídajících se mluvčích se vstupy moderátora, | Přestože jde o monology, objevují se zde i nahrávky s větším počtem mluvčích. K těm patří především projevy střídajících se mluvčích se vstupy moderátora, | ||
| Řádek 24: | Řádek 25: | ||
| Původními kritérii pro zařazení nahrávky do korpusu bylo, že nesmí jít o čtený projev a že se musí odehrát za přítomnosti publika. To znamená, že nesmí jít o projev připravený pro web, protože u něj není možné zjistit, zda nebyl pořizován opakovaně a dodatečně upravován. Nelze tedy zaručit autentické zachycení monologu za obvyklých podmínek, kdy je mluvčí vystaven určitým očekáváním ze strany publika, je ovlivněn jeho přítomností a zároveň formou příslušné události. Při sběru dat jsme však opakovaně naráželi na fakt, že při určitých příležitostech je (částečně) čtená forma obvyklou součástí monologů, protože jde například o ceremoniály, | Původními kritérii pro zařazení nahrávky do korpusu bylo, že nesmí jít o čtený projev a že se musí odehrát za přítomnosti publika. To znamená, že nesmí jít o projev připravený pro web, protože u něj není možné zjistit, zda nebyl pořizován opakovaně a dodatečně upravován. Nelze tedy zaručit autentické zachycení monologu za obvyklých podmínek, kdy je mluvčí vystaven určitým očekáváním ze strany publika, je ovlivněn jeho přítomností a zároveň formou příslušné události. Při sběru dat jsme však opakovaně naráželi na fakt, že při určitých příležitostech je (částečně) čtená forma obvyklou součástí monologů, protože jde například o ceremoniály, | ||
| - | Nahrávky byly pořizovány na různých místech ČR nebo byly se souhlasem mluvčího staženy z internetu. Kromě výše uvedených 9 případů nahrávky vždy zachycují komunikační situaci za přítomnosti publika a v autentickém prostředí. Korpus není vyvažován ani podle genderu mluvčích, převažují v něm muži. | + | Nahrávky byly pořizovány na různých místech ČR nebo byly se souhlasem mluvčího staženy z internetu. Kromě výše uvedených 9 případů nahrávky vždy zachycují komunikační situaci za přítomnosti publika a v autentickém prostředí. Korpus není vyvažován ani podle genderu mluvčích, převažují v něm muži. |
| ===== Strukturní atributy korpusu ORATOR ===== | ===== Strukturní atributy korpusu ORATOR ===== | ||
| Řádek 35: | Řádek 36: | ||
| Korpus ORATOR v3 je automaticky [[pojmy: | Korpus ORATOR v3 je automaticky [[pojmy: | ||
| - | V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč. Zvláštní varianty slov jsou odlišené vlastním sublemmatem | + | V korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč (stejně jako v korpusu ORTOFON, viz [[cnk: |
| Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky: | Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky: | ||
| Řádek 51: | Řádek 52: | ||
| ===== Informace o nahrávce ===== | ===== Informace o nahrávce ===== | ||
| - | Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, | + | Tento korpus obsahuje minimum informací o mluvčích, jsou cíleně anonymizováni. Uvádí se pouze gender a pro rozlišení mluvčích jsou kvůli větší formálnosti nahrávek použita náhodná příjmení, |
| Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce: | Oproti jiným mluveným korpusům uvádí ORATOR navíc následující podrobné informace o nahrávce: | ||
| Řádek 57: | Řádek 58: | ||
| * podrobnější zařazení situace do 12 kategorií (ceremoniál, | * podrobnější zařazení situace do 12 kategorií (ceremoniál, | ||
| * určení [[seznamy: | * určení [[seznamy: | ||
| - | * jakému publiku je nahrávka určena (zda jde o **veřejnost**, nebo menší, profesní či zájmovou | + | * jakému publiku je nahrávka určena (zda jde o veřejnost, nebo menší, profesní či zájmovou skupinu) |
| * speciální informace: určeno pro děti či čtené | * speciální informace: určeno pro děti či čtené | ||
| Řádek 66: | Řádek 67: | ||
| ===== ORATOR v2 (2020) ===== | ===== ORATOR v2 (2020) ===== | ||
| - | V roce 2020 proběhlo rozšíření korpusu ORATOR na více než dvojnásobnou velikost (více než 1,5 mil. tokenů). Korpus se skládá z 489 nahrávek 468 mluvčích z let 2005-2019. Krom nárůstu velikosti korpusu došlo také k mnoha drobným vylepšením v konzistentnosti transkripce a v anotaci. Korpus ORATOR v2 je označkovaný [[cnk: | + | V roce 2020 proběhlo rozšíření korpusu ORATOR na více než dvojnásobnou velikost (více než 1,5 mil. tokenů). Korpus se skládá z 489 nahrávek 468 mluvčích z let 2005-2019. Krom nárůstu velikosti korpusu došlo také k mnoha drobným vylepšením v konzistentnosti transkripce a v anotaci. Korpus ORATOR v2 je označkovaný |
| ===== ORATOR v3 (2025) ===== | ===== ORATOR v3 (2025) ===== | ||
| - | Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1.5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020. Nově je také do korpusu začleněn atribut [[https:// | + | Korpus ORATOR ve své třetí verzi obsahuje stejné nahrávky a přepisy jako druhá verze (tj. přes 1,5 mil. tokenů), jsou však nově anotovány podle standardu SYN2020 |
| Řádek 80: | Řádek 81: | ||
| <WRAP round tip 70%> | <WRAP round tip 70%> | ||
| - | Kopřivová, | + | Kopřivová, |
| - | Kopřivová, | + | Kopřivová, |
| - | Kopřivová, | + | Kopřivová, |
| </ | </ | ||