Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:oral [2017/06/02 10:48] – [Vytvoření korpusu ORAL] davidlukes | cnk:oral [2023/11/20 12:26] (aktuální) – martinawaclawicova | ||
---|---|---|---|
Řádek 5: | Řádek 5: | ||
<WRAP right 35%> | <WRAP right 35%> | ||
^ <fs medium> | ^ <fs medium> | ||
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
- | ^ Počet [[pojmy:atributy_strukturni# | + | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 1 546 | |
- | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
- | ^ Počet | + | ^ Počet mluvčích | |
^ Délka nahrávek části ORAL2013 + ORAL-Z [hh: | ^ Délka nahrávek části ORAL2013 + ORAL-Z [hh: | ||
</ | </ | ||
Řádek 17: | Řádek 17: | ||
Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 a ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situací. Tyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – např. pracovní rozhovor, rozhovor na úřadě, při nakupování apod., nebo jde o připravený mluvený projev, přednášku. Informace o **původním korpusu**, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním. | Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 a ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situací. Tyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – např. pracovní rozhovor, rozhovor na úřadě, při nakupování apod., nebo jde o připravený mluvený projev, přednášku. Informace o **původním korpusu**, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním. | ||
- | |||
- | [{{: | ||
Kvůli [[: | Kvůli [[: | ||
Řádek 26: | Řádek 24: | ||
* ORAL2013: 2 749 840 / 327 5988 | * ORAL2013: 2 749 840 / 327 5988 | ||
* ORAL-Z: 623 688 / 763 532 | * ORAL-Z: 623 688 / 763 532 | ||
+ | |||
+ | [{{ : | ||
Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{: | Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{: | ||
Řádek 31: | Řádek 31: | ||
==== Úprava sociolingvistických údajů ==== | ==== Úprava sociolingvistických údajů ==== | ||
- | * **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk: | + | * **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk: |
* identifikace **shodných mluvčích**: | * identifikace **shodných mluvčích**: | ||
* doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) | * doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) | ||
- | * nově doplněno pro všechny mluvčí | + | * nově doplněno pro všechny mluvčí **zaměstnání** podle klasifikace zaměstnání a **údaj o tom, kolika procenty se dotyčný mluvčí podílí** na počtu tokenů (korpusových pozic) v nahrávce (viz [[pojmy: |
* stejné zůstávají **binární kategorie** pro | * stejné zůstávají **binární kategorie** pro | ||
Řádek 44: | Řádek 44: | ||
* maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) | * maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) | ||
* **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus '' | * **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus '' | ||
- | * **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, | + | * **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, |
- | * **tokenizace** byla opravena pro celý korpus, do počtu slov nejsou zahrnovány komentáře a ostatní, neverbální zvuky, což mělo za následek snížení počtu slov v korpusu | + | |
- | + | ||
==== Úprava transkripce ==== | ==== Úprava transkripce ==== | ||
Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, | Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, | ||
Řádek 78: | Řádek 75: | ||
<WRAP round tip 80%> | <WRAP round tip 80%> | ||
- | Kopřivová, | + | Kopřivová, |
- | Kopřivová, | + | Kopřivová, |
- | Lukeš. D. - Klimešová, | + | Lukeš. D. - Klimešová, |
</ | </ | ||