Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
cnk:oral [2017/06/01 11:32] – davidlukes | cnk:oral [2017/07/10 08:28] – zuzanakomrskova | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Korpus ORAL ====== | ====== Korpus ORAL ====== | ||
- | Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČR. Mluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníky) a byli nahráváni ve svém přirozeném prostředí. Nahrávky byly pořizovány v průběhu deseti let, v letech 2002–2011. Korpus není vyvážený, | + | Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČR. Mluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníky) a byli nahráváni ve svém přirozeném prostředí. Nahrávky byly pořizovány v průběhu deseti let, v letech 2002–2011. Korpus není vyvážený, |
Korpus ORAL sjednocuje korpusy [[cnk: | Korpus ORAL sjednocuje korpusy [[cnk: | ||
<WRAP right 35%> | <WRAP right 35%> | ||
^ <fs medium> | ^ <fs medium> | ||
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
^ Počet [[pojmy: | ^ Počet [[pojmy: | ||
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
^ Počet unikátních (různých) mluvčích | 1 297 | | ^ Počet unikátních (různých) mluvčích | 1 297 | | ||
^ Délka nahrávek části ORAL2013 + ORAL-Z [hh: | ^ Délka nahrávek části ORAL2013 + ORAL-Z [hh: | ||
Řádek 16: | Řádek 16: | ||
===== Vytvoření korpusu ORAL ===== | ===== Vytvoření korpusu ORAL ===== | ||
- | Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 a ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situací. Tyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – např. pracovní rozhovor, rozhovor na úřadě, při nakupování apod., nebo jde o připravený mluvený projev, přednášku. Informace o **původním korpusu**, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním. | + | Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 a ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situací. Tyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – např. pracovní rozhovor, rozhovor na úřadě, při nakupování apod., nebo jde o připravený mluvený projev, přednášku. Informace o **původním korpusu**, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním. |
+ | |||
+ | Kvůli | ||
+ | |||
+ | * ORAL2006: 999 380 / 1 149 678 | ||
+ | * ORAL2008: 995 484 / 1 172 509 | ||
+ | * ORAL2013: 2 749 840 / 327 5988 | ||
+ | * ORAL-Z: 623 688 / 763 532 | ||
[{{ : | [{{ : | ||
- | Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{: | + | Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{: |
==== Úprava sociolingvistických údajů ==== | ==== Úprava sociolingvistických údajů ==== | ||
Řádek 27: | Řádek 34: | ||
* identifikace **shodných mluvčích**: | * identifikace **shodných mluvčích**: | ||
* doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) | * doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) | ||
- | * nově doplněno pro všechny mluvčí | + | * nově doplněno pro všechny mluvčí **zaměstnání** podle klasifikace zaměstnání a **údaj o tom, kolika procenty se dotyčný mluvčí podílí** na počtu tokenů (korpusových pozic) v nahrávce (viz [[pojmy: |
* stejné zůstávají **binární kategorie** pro | * stejné zůstávají **binární kategorie** pro | ||
Řádek 37: | Řádek 44: | ||
* maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) | * maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) | ||
* **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus '' | * **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus '' | ||
- | * **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, | + | * **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, |
- | * **tokenizace** byla opravena pro celý korpus, do počtu slov nejsou zahrnovány komentáře a ostatní, neverbální zvuky, což mělo za následek snížení počtu slov v korpusu | + | |
- | + | ||
==== Úprava transkripce ==== | ==== Úprava transkripce ==== | ||
Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, | Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, | ||
Řádek 62: | Řádek 66: | ||
===== Literatura ===== | ===== Literatura ===== | ||
- | Balhar, J. a kol. : Český jazykový atlas. | + | Balhar, J. a kol. (1992) |
Hajič, J. – Hlaváčová, | Hajič, J. – Hlaváčová, | ||
Řádek 70: | Řádek 74: | ||
===== Jak citovat ORAL ===== | ===== Jak citovat ORAL ===== | ||
- | <WRAP round tip 70%> | + | <WRAP round tip 80%> |
- | Kopřivová, | + | Kopřivová, |
- | Kopřivová, | + | Kopřivová, |
- | Lukeš. D. - Klimešová, | + | Lukeš. D. - Klimešová, |
</ | </ | ||