Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:oral [2017/06/01 11:33] – [Vytvoření korpusu ORAL] davidlukes | cnk:oral [2023/11/20 12:26] (aktuální) – martinawaclawicova | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus ORAL ====== | ====== Korpus ORAL ====== | ||
- | Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČR. Mluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníky) a byli nahráváni ve svém přirozeném prostředí. Nahrávky byly pořizovány v průběhu deseti let, v letech 2002–2011. Korpus není vyvážený, | + | Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČR. Mluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníky) a byli nahráváni ve svém přirozeném prostředí. Nahrávky byly pořizovány v průběhu deseti let, v letech 2002–2011. Korpus není vyvážený, |
Korpus ORAL sjednocuje korpusy [[cnk: | Korpus ORAL sjednocuje korpusy [[cnk: | ||
<WRAP right 35%> | <WRAP right 35%> | ||
^ <fs medium> | ^ <fs medium> | ||
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
- | ^ Počet [[pojmy:atributy_strukturni# | + | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 1 546 | |
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
- | ^ Počet | + | ^ Počet mluvčích | |
^ Délka nahrávek části ORAL2013 + ORAL-Z [hh: | ^ Délka nahrávek části ORAL2013 + ORAL-Z [hh: | ||
</ | </ | ||
Řádek 16: | Řádek 16: | ||
===== Vytvoření korpusu ORAL ===== | ===== Vytvoření korpusu ORAL ===== | ||
- | Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 a ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situací. Tyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – např. pracovní rozhovor, rozhovor na úřadě, při nakupování apod., nebo jde o připravený mluvený projev, přednášku. Informace o **původním korpusu**, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním. Shrnující informace o složení korpusu jsou dostupné [[cnk: | + | Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 a ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situací. Tyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – např. pracovní rozhovor, rozhovor na úřadě, při nakupování apod., nebo jde o připravený mluvený projev, přednášku. Informace o **původním korpusu**, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním. |
- | [{{:cnk:oral: | + | Kvůli [[:cnk:oral#Úprava transkripce|opravám a změnám tokenizace]] doznaly i dříve zveřejněné složky korpusu ORAL změn ve velikosti. Pro přehled a případné srovnání s původními korpusy zde uvádíme velikosti všech částí nového korpusu |
- | Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{: | + | * ORAL2006: 999 380 / 1 149 678 |
+ | * ORAL2008: 995 484 / 1 172 509 | ||
+ | * ORAL2013: 2 749 840 / 327 5988 | ||
+ | * ORAL-Z: 623 688 / 763 532 | ||
+ | |||
+ | [{{ : | ||
+ | |||
+ | Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{: | ||
==== Úprava sociolingvistických údajů ==== | ==== Úprava sociolingvistických údajů ==== | ||
- | * **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk: | + | * **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk: |
* identifikace **shodných mluvčích**: | * identifikace **shodných mluvčích**: | ||
* doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) | * doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) | ||
- | * nově doplněno pro všechny mluvčí | + | * nově doplněno pro všechny mluvčí **zaměstnání** podle klasifikace zaměstnání a **údaj o tom, kolika procenty se dotyčný mluvčí podílí** na počtu tokenů (korpusových pozic) v nahrávce (viz [[pojmy: |
* stejné zůstávají **binární kategorie** pro | * stejné zůstávají **binární kategorie** pro | ||
Řádek 37: | Řádek 44: | ||
* maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) | * maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) | ||
* **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus '' | * **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus '' | ||
- | * **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, | + | * **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, |
- | * **tokenizace** byla opravena pro celý korpus, do počtu slov nejsou zahrnovány komentáře a ostatní, neverbální zvuky, což mělo za následek snížení počtu slov v korpusu | + | |
- | + | ||
==== Úprava transkripce ==== | ==== Úprava transkripce ==== | ||
Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, | Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, | ||
Řádek 62: | Řádek 66: | ||
===== Literatura ===== | ===== Literatura ===== | ||
- | Balhar, J. a kol. : Český jazykový atlas. | + | Balhar, J. a kol. (1992) |
Hajič, J. – Hlaváčová, | Hajič, J. – Hlaváčová, | ||
Řádek 70: | Řádek 74: | ||
===== Jak citovat ORAL ===== | ===== Jak citovat ORAL ===== | ||
- | <WRAP round tip 70%> | + | <WRAP round tip 80%> |
- | Kopřivová, | + | Kopřivová, |
- | Kopřivová, | + | Kopřivová, |
- | Lukeš. D. - Klimešová, | + | Lukeš. D. - Klimešová, |
</ | </ | ||