Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:oral [2017/06/01 10:34] – [Úprava sociolingvistických údajů] petrapoukarova | cnk:oral [2023/11/20 12:26] (aktuální) – martinawaclawicova |
---|
====== Korpus ORAL ====== | ====== Korpus ORAL ====== |
Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČR. Mluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníky) a byli nahráváni ve svém přirozeném prostředí. Nahrávky byly pořizovány v průběhu deseti let, v letech 2002–2011. Korpus není vyvážený, převažují data z české části České republiky. Transkripce je jednoúrovňová, a pokud to bylo možné, byla spolu s tokenizací sjednocena pro všechny části korpusů. | Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČR. Mluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníky) a byli nahráváni ve svém přirozeném prostředí. Nahrávky byly pořizovány v průběhu deseti let, v letech 2002–2011. Korpus není vyvážený, převažují data z české části České republiky (více viz [[cnk:struktura_oral|složení korpusu]]). Transkripce je jednoúrovňová, a pokud to bylo možné, byla spolu s tokenizací sjednocena pro všechny části korpusů. |
Korpus ORAL sjednocuje korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]], [[cnk:oral2013|ORAL2013]] a dosud nepublikované nahrávky ORAL-Z. Celková velikost korpusu je 5 368 391 slov, celkový čas nahrávek je 582 hodin. Část transkriptů není spojena se zvukem (data z korpusů ORAL2006 a ORAL2008). Korpus je [[cnk:lemtag_mluv|lemmatizován a morfologicky označkován]]. Používá stejný typ [[seznamy:tagy|morfologických značek]] jako současné psané korpusy. | Korpus ORAL sjednocuje korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]], [[cnk:oral2013|ORAL2013]] a dosud nepublikované nahrávky ORAL-Z. Celková velikost korpusu je 5 368 391 slov, celkový čas nahrávek je 582 hodin. Část transkriptů není spojena se zvukem (data z korpusů ORAL2006 a ORAL2008). Korpus je [[cnk:lemtag_mluv|lemmatizován a morfologicky označkován]]. Používá stejný typ [[seznamy:tagy|morfologických značek]] jako současné psané korpusy. |
| |
===== Vytvoření korpusu ORAL ===== | |
Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 a ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situací. Tyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – např. pracovní rozhovor, rozhovor na úřadě, při nakupování apod., nebo jde o připravený mluvený projev, přednášku. Informace o **původním korpusu**, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním. | |
| |
<WRAP right 35%> | <WRAP right 35%> |
^ <fs medium>Název</fs> | <fs medium>[[cnk:oral|ORAL]]</fs> | | ^ <fs medium>Název</fs> | <fs medium>[[cnk:oral|ORAL]]</fs> | |
^ Počet [[pojmy:token|pozic (tokenů)]] | 6 361 706 | | ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 361 707 | |
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek | 5 368 391 | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a komentářů | 5 368 392 | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 193 498 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 193 497 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] | 1 546 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 1 546 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 696 918 | | ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|replik]] | 696 918 | |
^ Počet unikátních (různých) mluvčích | 1 297 | | ^ Počet mluvčích | 2 807 | |
^ Délka nahrávek části ORAL2013 + ORAL-Z [hh:mm:ss.ms] | 354:44:36.722 | | ^ Délka nahrávek části ORAL2013 + ORAL-Z [hh:mm:ss.ms] | 354:44:36.722 | |
</WRAP> | </WRAP> |
| |
| ===== Vytvoření korpusu ORAL ===== |
| |
| Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 a ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situací. Tyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – např. pracovní rozhovor, rozhovor na úřadě, při nakupování apod., nebo jde o připravený mluvený projev, přednášku. Informace o **původním korpusu**, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním. |
| |
| Kvůli [[:cnk:oral#Úprava transkripce|opravám a změnám tokenizace]] doznaly i dříve zveřejněné složky korpusu ORAL změn ve velikosti. Pro přehled a případné srovnání s původními korpusy zde uvádíme velikosti všech částí nového korpusu (počet pozic bez interpunkce a komentářů / počet pozic celkem): |
| |
| * ORAL2006: 999 380 / 1 149 678 |
| * ORAL2008: 995 484 / 1 172 509 |
| * ORAL2013: 2 749 840 / 327 5988 |
| * ORAL-Z: 623 688 / 763 532 |
| |
| [{{ :cnk:oral:map.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}] |
| |
| Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:oral:geocounts.xlsx|ke stažení ve formátu .xlsx}}. |
| |
==== Úprava sociolingvistických údajů ==== | ==== Úprava sociolingvistických údajů ==== |
| |
* **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk:dialekt#mapa_narecnich_oblasti_cr|mapa nářečních oblastí]]) | * **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk:dialekt:mapa|mapa nářečních oblastí]]) |
* identifikace **shodných mluvčích**: v rámci nahrávek pořízených během let 2002–2007 (korpusy ORAL2006, ORAL2008 a ORAL-Z) byli zpětně propojeni shodní mluvčí, v nahrávkách z let 2008–2011 (korpus ORAL2013) už tato shoda označena byla; shodní mluvčí mezi oběma časovými obdobími označováni nebyli | * identifikace **shodných mluvčích**: v rámci nahrávek pořízených během let 2002–2007 (korpusy ORAL2006, ORAL2008 a ORAL-Z) byli zpětně propojeni shodní mluvčí, v nahrávkách z let 2008–2011 (korpus ORAL2013) už tato shoda označena byla; shodní mluvčí mezi oběma časovými obdobími označováni nebyli |
* doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) | * doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) |
* nově doplněno pro všechny mluvčí **místo narození**, **zaměstnání** podle klasifikace zaměstnání a **údaj o tom, kolika procenty se dotyčný mluvčí podílí** na počtu tokenů (korpusových pozic) v nahrávce (viz [[pojmy:atributy_strukturni#atributy_spolecne_vsem_korpusum_rady_oral|údaje o mluvčím]]) | * nově doplněno pro všechny mluvčí **zaměstnání** podle klasifikace zaměstnání a **údaj o tom, kolika procenty se dotyčný mluvčí podílí** na počtu tokenů (korpusových pozic) v nahrávce (viz [[pojmy:atributy_strukturni##strukturni_atributy_mluvenych_korpusu|údaje o mluvčím]]) |
| |
* stejné zůstávají **binární kategorie** pro | * stejné zůstávají **binární kategorie** pro |
* maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) | * maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) |
* **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus ''(+)''; pokud nedošlo k navázání na původní téma, znaménkem minus ''(-)'' | * **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus ''(+)''; pokud nedošlo k navázání na původní téma, znaménkem minus ''(-)'' |
* **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, užívaná pro korpusy ORAL2006 a ORAL2008, byla změněna následujícím způsobem: čárky byly smazány bez náhrady, tečky byly nahrazeny čárkami | * **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, užívaná pro korpusy ORAL2006 a ORAL2008, byla změněna následujícím způsobem: čárky byly smazány bez náhrady, tečky byly nahrazeny čárkami |
* **tokenizace** byla opravena pro celý korpus, do počtu slov nejsou zahrnovány komentáře a ostatní, neverbální zvuky, což mělo za následek snížení počtu slov v korpusu | |
| |
==== Úprava transkripce ==== | ==== Úprava transkripce ==== |
Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, neměnné podobě.)). Přepis dat z části ORAL-Z odpovídá v podstatě transkripčním zásadám korpusu {{:cnk:prepisovaci_pravidla_oral2013.pdf|ORAL2013}}. Rozdílnost transkripce je způsobena nejen chybami a změnou pravidel, ale často i možností dubletního zápisu v psaných textech. | Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, neměnné podobě.)). Přepis dat z části ORAL-Z odpovídá v podstatě transkripčním zásadám korpusu {{:cnk:prepisovaci_pravidla_oral2013.pdf|ORAL2013}}. Rozdílnost transkripce je způsobena nejen chybami a změnou pravidel, ale často i možností dubletního zápisu v psaných textech. |
| |
Tam, kde to bylo možné, byla transkripce sjednocována následujícím způsobem: | Tam, kde to bylo možné, byla transkripce sjednocována následujícím způsobem: |
*** psaní dohromady:** slova cizího původu (//nonstop, secondhand//), citátová spojení (//apriori, defacto//), spřežky s možností obojího zápisu (//bezesporu, načerno, vodmalička//), číslovky s komponentem krát (//čtyřikrát//), substantivizované číslovky (//dvacetdevítka//), spojky (//anebo, abysem//), citoslovce (//bubu, čičí, díkybohu//), | *** psaní dohromady:** slova cizího původu (//nonstop, secondhand//), citátová spojení (//apriori, defacto//), spřežky s možností dvojího zápisu (//bezesporu, načerno, vodmalička//), číslovky s komponentem krát (//čtyřikrát//), substantivizované číslovky (//dvacetdevítka//), spojky (//anebo, abysem//), citoslovce (//bubu, čičí, díkybohu//), |
* **psaní zvlášť**: víceslovné kontaktové výrazy (//no no; prosim tě//), spojky (//i když//), číslovky (//čtyři sta, dvacet dva, dvacátýho devátýho//), víceslovná adverbia (//přece jenom, všude možně//), výrazy s komponentem //(ne)vím// (//nevim kam; nevím co, bůh ví, čert ví//) a spojení předložky a zájmena //na ňho//. | *** psaní zvlášť**: víceslovné kontaktové výrazy (//no no; prosim tě//), spojky (//i když//), číslovky (//čtyři sta, dvacet dva, dvacátýho devátýho//), víceslovná adverbia (//přece jenom, všude možně//), výrazy s komponentem //(ne)vím// (//nevim kam; nevím co, bůh ví, čert ví//) a spojení předložky a zájmena //na ňho//. |
*** psaní s malým počátečním písmenem**: jména nápojů (//frankovka, mattonka, gambrinus//), značky vozidel (//fabia, fiat, zetor//), internetových vyhledávačů //google, youtube// | *** psaní s malým počátečním písmenem**: jména nápojů (//frankovka, mattonka, gambrinus//), značky vozidel (//fabia, fiat, zetor//), internetových vyhledávačů //google, youtube// |
| |
V přepisech jsou [[cnk:oral:pravidla#anonymizacni_znacky|kódovány]] citlivé osobní údaje podle přání nahrávajících. | Citlivé osobní údaje jsou v přepisech [[cnk:oral:pravidla#anonymizacni_znacky|kódovány]] podle přání nahrávajících. |
Podrobnější údaje a přehled transkripčních značek se nachází v oddílu [[cnk:oral:pravidla|Transkripce]]. | Podrobnější údaje a přehled transkripčních značek se nachází v oddílu [[cnk:oral:pravidla|Transkripce]]. |
| |
===== Zobrazení ===== | ===== Zobrazení ===== |
Pro mluvené korpusy byl zároveň implementován nový přehledný způsob zobrazení dialogu, který přehledně ukazuje střídání mluvčích, zachycuje jejich souběžný hovor (pro části ORAL2013 a ORAL-Z) a pomocí přezdívky jednoznačně identifikuje mluvčí. | Pro mluvené korpusy byl zároveň implementován nový, názorný způsob zobrazení dialogu, který přehledně ukazuje střídání mluvčích, zachycuje jejich souběžný hovor (pro části ORAL2013 a ORAL-Z) a pomocí přezdívky jednoznačně identifikuje mluvčí. |
| |
| |
| |
===== Literatura ===== | ===== Literatura ===== |
Balhar, J. a kol. : Český jazykový atlas. | Balhar, J. a kol. (1992) : Český jazykový atlas.Academia. Praha. |
| |
Hajič, J. – Hlaváčová, J. (2013): MorfFlex CZ. Univerzita Karlova v Praze, MFF, ÚFAL, Praha. | Hajič, J. – Hlaváčová, J. (2013): MorfFlex CZ. Univerzita Karlova v Praze, MFF, ÚFAL, Praha. |
===== Jak citovat ORAL ===== | ===== Jak citovat ORAL ===== |
| |
<WRAP round tip 70%> | <WRAP round tip 80%> |
Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: //ORAL: korpus neformální mluvené češtiny//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz | Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: //ORAL: korpus neformální mluvené češtiny, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz |
| |
Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (v tisku). | Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. (2017): Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie//, 15, 47-67. |
| |
Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350. | Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015): Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: //TSD 2015//, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350. |
</WRAP> | </WRAP> |
| |