Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:oral [2017/06/02 10:50] – [Úprava segmentace] davidlukes | cnk:oral [2023/11/20 12:26] (aktuální) – martinawaclawicova |
---|
<WRAP right 35%> | <WRAP right 35%> |
^ <fs medium>Název</fs> | <fs medium>[[cnk:oral|ORAL]]</fs> | | ^ <fs medium>Název</fs> | <fs medium>[[cnk:oral|ORAL]]</fs> | |
^ Počet [[pojmy:token|pozic (tokenů)]] | 6 361 706 | | ^ Počet [[pojmy:token|pozic (tokenů)]] | 6 361 707 | |
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek | 5 368 391 | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a komentářů | 5 368 392 | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 193 498 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 193 497 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] | 1 546 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 1 546 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 696 918 | | ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|replik]] | 696 918 | |
^ Počet unikátních (různých) mluvčích | 1 297 | | ^ Počet mluvčích | 2 807 | |
^ Délka nahrávek části ORAL2013 + ORAL-Z [hh:mm:ss.ms] | 354:44:36.722 | | ^ Délka nahrávek části ORAL2013 + ORAL-Z [hh:mm:ss.ms] | 354:44:36.722 | |
</WRAP> | </WRAP> |
==== Úprava sociolingvistických údajů ==== | ==== Úprava sociolingvistických údajů ==== |
| |
* **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk:dialekt#mapa_narecnich_oblasti_cr|mapa nářečních oblastí]]) | * **nářeční oblasti** (8 tradičních + české a moravské pohraničí) byly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk:dialekt:mapa|mapa nářečních oblastí]]) |
* identifikace **shodných mluvčích**: v rámci nahrávek pořízených během let 2002–2007 (korpusy ORAL2006, ORAL2008 a ORAL-Z) byli zpětně propojeni shodní mluvčí, v nahrávkách z let 2008–2011 (korpus ORAL2013) už tato shoda označena byla; shodní mluvčí mezi oběma časovými obdobími označováni nebyli | * identifikace **shodných mluvčích**: v rámci nahrávek pořízených během let 2002–2007 (korpusy ORAL2006, ORAL2008 a ORAL-Z) byli zpětně propojeni shodní mluvčí, v nahrávkách z let 2008–2011 (korpus ORAL2013) už tato shoda označena byla; shodní mluvčí mezi oběma časovými obdobími označováni nebyli |
* doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) | * doplnění **přezdívky** pro identifikaci totožného mluvčího: každý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví + identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.)) |
* nově doplněno pro všechny mluvčí **místo narození**, **zaměstnání** podle klasifikace zaměstnání a **údaj o tom, kolika procenty se dotyčný mluvčí podílí** na počtu tokenů (korpusových pozic) v nahrávce (viz [[pojmy:atributy_strukturni#atributy_spolecne_vsem_korpusum_rady_oral|údaje o mluvčím]]) | * nově doplněno pro všechny mluvčí **zaměstnání** podle klasifikace zaměstnání a **údaj o tom, kolika procenty se dotyčný mluvčí podílí** na počtu tokenů (korpusových pozic) v nahrávce (viz [[pojmy:atributy_strukturni##strukturni_atributy_mluvenych_korpusu|údaje o mluvčím]]) |
| |
* stejné zůstávají **binární kategorie** pro | * stejné zůstávají **binární kategorie** pro |
| |
<WRAP round tip 80%> | <WRAP round tip 80%> |
Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: //ORAL: korpus neformální mluvené češtiny//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz | Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: //ORAL: korpus neformální mluvené češtiny, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz |
| |
Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (v tisku). | Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. (2017): Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie//, 15, 47-67. |
| |
Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350. | Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015): Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: //TSD 2015//, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350. |
</WRAP> | </WRAP> |
| |