Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
| cnk:oral [2017/06/02 10:49] – [Vytvoření korpusu ORAL] davidlukes | cnk:oral [2025/10/09 09:18] (aktuální) – [Úprava sociolingvistických údajů] martinawaclawicova | ||
|---|---|---|---|
| Řádek 5: | Řádek 5: | ||
| <WRAP right 35%> | <WRAP right 35%> | ||
| ^ <fs medium> | ^ <fs medium> | ||
| - | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
| - | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
| - | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
| - | ^ Počet [[pojmy:atributy_strukturni# | + | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 1 546 | |
| - | ^ Počet [[pojmy: | + | ^ Počet [[pojmy: |
| - | ^ Počet | + | ^ Počet mluvčích | |
| ^ Délka nahrávek části ORAL2013 + ORAL-Z [hh: | ^ Délka nahrávek části ORAL2013 + ORAL-Z [hh: | ||
| </ | </ | ||
| Řádek 31: | Řádek 31: | ||
| ==== Úprava sociolingvistických údajů ==== | ==== Úprava sociolingvistických údajů ==== | ||
| - | * **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk: | + | * **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk: |
| * identifikace **shodných mluvčích**: | * identifikace **shodných mluvčích**: | ||
| - | * doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) | + | * doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)), což tvoří dohromady unikátní kód (takže např. Adam_1416 a Adam_3924 jsou dva různí mluvčí) |
| - | * nově doplněno pro všechny mluvčí | + | * nově doplněno pro všechny mluvčí **zaměstnání** podle klasifikace zaměstnání a **údaj o tom, kolika procenty se dotyčný mluvčí podílí** na počtu tokenů (korpusových pozic) v nahrávce (viz [[pojmy: |
| * stejné zůstávají **binární kategorie** pro | * stejné zůstávají **binární kategorie** pro | ||
| Řádek 44: | Řádek 44: | ||
| * maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) | * maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) | ||
| * **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus '' | * **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus '' | ||
| - | * **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, | + | * **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, |
| - | * **tokenizace** byla opravena pro celý korpus, do počtu slov nejsou zahrnovány komentáře a ostatní, neverbální zvuky, což mělo za následek snížení počtu slov v korpusu | + | |
| - | + | ||
| ==== Úprava transkripce ==== | ==== Úprava transkripce ==== | ||
| Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, | Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, | ||
| Řádek 78: | Řádek 75: | ||
| <WRAP round tip 80%> | <WRAP round tip 80%> | ||
| - | Kopřivová, | + | Kopřivová, |
| - | Kopřivová, | + | Kopřivová, |
| - | Lukeš. D. - Klimešová, | + | Lukeš. D. - Klimešová, |
| </ | </ | ||