Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:ortofon [2020/12/22 00:03] – základní zmínka o ORTOFON v2 lukes | cnk:ortofon [2022/06/02 12:34] – [Strukturní atributy korpusu ORTOFON] jankrivan |
---|
Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus je [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]] stejně jako korpus ORAL, transkript je propojen se zvukovou stopou. | Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus je [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]] stejně jako korpus ORAL, transkript je propojen se zvukovou stopou. |
| |
Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikum, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický ((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkum, přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností. | Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikon, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkum, přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností. |
| |
Zveřejněním korpusu ORTOFON spolu se spojeným korpusem [[cnk:oral|ORAL]] se uživatelům otvírá možnost zkoumání neformální mluvené češtiny v dosud nejrozsáhlejším komplexu dat z patnáctiletého období (2002-2017). | Zveřejněním korpusu ORTOFON spolu se spojeným korpusem [[cnk:oral|ORAL]] se uživatelům otvírá možnost zkoumání neformální mluvené češtiny v dosud nejrozsáhlejším komplexu dat z patnáctiletého období (2002-2017). |
Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov. | Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov. |
Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu. | Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu. |
| |
| ===== Strukturní atributy korpusu ORTOFON ===== |
| |
| ^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ |
| | doc | id | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | |
| | | year | rok nahrání sondy | např. ''2008'' | |
| | | month | měsíc nahrání sondy | např. ''7'' | |
| | | location | místo nahrání sondy | např. ''Liberec'' | |
| | | situation | typ mluvní situace sondy | např. ''hovor doma'' | |
| | | speakers | počet mluvčích v nahrávce | ''<číslo>'' | |
| | | relationship | vztah mezi mluvčími v nahrávce | např. ''partnerský'' | |
| | | genders | pohlaví mluvčích v nahrávce | ''{jen ženy, jen muži, smíšené}'' | |
| | | generations | počet generací mluvčích v nahrávce | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd. | |
| | | length | délka nahrávky | např. ''10:47'' | |
| | | tokens | počet tokenův rámci sondy | např. ''2134'' | |
| | sp | id | identifikátor segmentu (struktury sp) | např. ''3784'' | |
| | | nickname | označení mluvčího | např. ''Světlana R.'' | |
| | | speaker_id | identifikátor mluvčího | např. ''19'' | |
| | | gender | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' | |
| | | age_binary | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' | |
| | | age | věk mluvčího (číselně) | ''<číslo>'' | |
| | | edu_binary | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' | |
| | | edu_level | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' | |
| | | edu_field | obor vzdělání | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu | |
| | | occupation | zaměstnání | např. ''sociální pracovník'' | |
| | | occupation_category | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] | |
| | | reg_childhood | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' | |
| | | loc_childhood | místo, kde mluvčí žil do 15 let | např. ''Praha'' | |
| | | locsize_childhood | velikost sídla, kde mluvčí žil do 15 let věku | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | |
| | | reg_longest | nářeční oblast, v níž mluvčí žil nejdéle | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | |
| | | locsize_longest | velikost sídla, kde mluvčí žil nejdelší dobu | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | |
| | | reg_current | nářeční oblast, v níž mluvčí žije v současné době | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' | |
| | | locsize_current | velikost sídla, kde mluvčí žije v současné době | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' | |
| | | proportion | podíl segmentu na všech segmentech v sondě | např. ''59 %'' | |
| | | soundfile | číslo a formát nahrávky | např. ''5/3/ef2e315f.mp3'' | |
| | para | type | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' | |
| | pw | - | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - | |
| | overlap | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - | |
| | unclear | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | |
| |
===== Rozdíly mezi korpusem ORAL a ORTOFON ===== | ===== Rozdíly mezi korpusem ORAL a ORTOFON ===== |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Poukarová, P. – Kopřivová, M. – Laubeová, Z. – Lukeš, D.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz | Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz |
| |
Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz | Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz |