AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
cnk:ortofon [2020/12/22 00:03] – základní zmínka o ORTOFON v2 lukescnk:ortofon [2022/06/02 12:34] – [Strukturní atributy korpusu ORTOFON] jankrivan
Řádek 5: Řádek 5:
 Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus je [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]] stejně jako korpus ORAL, transkript je propojen se zvukovou stopou. Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus je [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]] stejně jako korpus ORAL, transkript je propojen se zvukovou stopou.
  
-Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikum, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický ((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkum, přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností.+Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikon, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkum, přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností.
  
 Zveřejněním korpusu ORTOFON spolu se spojeným korpusem [[cnk:oral|ORAL]] se uživatelům otvírá možnost zkoumání neformální mluvené češtiny v dosud nejrozsáhlejším komplexu dat z patnáctiletého období (2002-2017). Zveřejněním korpusu ORTOFON spolu se spojeným korpusem [[cnk:oral|ORAL]] se uživatelům otvírá možnost zkoumání neformální mluvené češtiny v dosud nejrozsáhlejším komplexu dat z patnáctiletého období (2002-2017).
Řádek 38: Řádek 38:
 Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov. Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov.
 Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu.  Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu. 
 +
 +===== Strukturní atributy korpusu ORTOFON =====
 +
 +^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^
 +| doc | id            | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' |
 +|     | year          | rok nahrání sondy | např. ''2008'' |
 +|     | month          | měsíc nahrání sondy | např. ''7'' |
 +|     | location          | místo nahrání sondy | např. ''Liberec'' |
 +|     | situation      | typ mluvní situace sondy | např. ''hovor doma'' |
 +|     | speakers      | počet mluvčích v nahrávce | ''<číslo>'' |
 +|     | relationship      | vztah mezi mluvčími v nahrávce | např. ''partnerský'' |
 +|     | genders      | pohlaví mluvčích v nahrávce | ''{jen ženy, jen muži, smíšené}''  |
 +|     | generations   | počet generací mluvčích v nahrávce  | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd.  |
 +|     | length   | délka nahrávky  | např. ''10:47'' |
 +|     | tokens   | počet tokenův rámci sondy | např. ''2134'' |
 +| sp  | id       | identifikátor segmentu (struktury sp)  | např. ''3784'' |
 +|     | nickname    | označení mluvčího | např. ''Světlana R.'' |
 +|     | speaker_id      | identifikátor mluvčího | např. ''19'' |
 +|     | gender    | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' |
 +|     | age_binary    | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' |
 +|     | age        | věk mluvčího (číselně) | ''<číslo>'' |
 +|     | edu_binary      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' |
 +|     | edu_level   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' |
 +|             | edu_field          | obor vzdělání  | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu  |
 +|             | occupation         | zaměstnání | např. ''sociální pracovník''   |
 +|             | occupation_category  | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] | 
 +|     | reg_childhood        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' |
 +|             | loc_childhood      | místo, kde mluvčí žil do 15 let  | např. ''Praha'' |
 +|     | locsize_childhood  | velikost sídla, kde mluvčí žil do 15 let věku  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  |
 +|             | reg_longest        | nářeční oblast, v níž mluvčí žil nejdéle  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y''  |
 +|             | locsize_longest    | velikost sídla, kde mluvčí žil nejdelší dobu  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  |
 +|             | reg_current        | nářeční oblast, v níž mluvčí žije v současné době  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y''  |
 +|             | locsize_current    | velikost sídla, kde mluvčí žije v současné době  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  |
 +|             | proportion          | podíl segmentu na všech segmentech v sondě  | např. ''59 %'' |
 +|             | soundfile          | číslo a formát nahrávky  | např. ''5/3/ef2e315f.mp3'' |
 +| para    | type                | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem  | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}''  |
 +| pw      | -                  | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - | 
 +| overlap  | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - | 
 +| unclear  | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - | 
  
 ===== Rozdíly mezi korpusem ORAL a ORTOFON ===== ===== Rozdíly mezi korpusem ORAL a ORTOFON =====
Řádek 76: Řádek 115:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Poukarová, P. – Kopřivová, M. – Laubeová, Z. – Lukeš, D.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz
  
 Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz