Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:ortofon [2020/12/22 00:03] – základní zmínka o ORTOFON v2 lukes
+++ cnk:ortofon [2022/06/02 12:34] – [Strukturní atributy korpusu ORTOFON] jankrivan
@@ Řádek 5: / Řádek 5: @@
 Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus je [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]] stejně jako korpus ORAL, transkript je propojen se zvukovou stopou.
-Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikum, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický ((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkum, přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností.
+Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikon, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkum, přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností.
 Zveřejněním korpusu ORTOFON spolu se spojeným korpusem [[cnk:oral|ORAL]] se uživatelům otvírá možnost zkoumání neformální mluvené češtiny v dosud nejrozsáhlejším komplexu dat z patnáctiletého období (2002-2017).
@@ Řádek 38: / Řádek 38: @@
 Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov.
 Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu.
+===== Strukturní atributy korpusu ORTOFON =====
+^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^
+| doc | id            | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' |
+|     | year          | rok nahrání sondy | např. ''2008'' |
+|     | month          | měsíc nahrání sondy | např. ''7'' |
+|     | location          | místo nahrání sondy | např. ''Liberec'' |
+|     | situation      | typ mluvní situace sondy | např. ''hovor doma'' |
+|     | speakers      | počet mluvčích v nahrávce | ''<číslo>'' |
+|     | relationship      | vztah mezi mluvčími v nahrávce | např. ''partnerský'' |
+|     | genders      | pohlaví mluvčích v nahrávce | ''{jen ženy, jen muži, smíšené}''  |
+|     | generations   | počet generací mluvčích v nahrávce  | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd.  |
+|     | length   | délka nahrávky  | např. ''10:47'' |
+|     | tokens   | počet tokenův rámci sondy | např. ''2134'' |
+| sp  | id       | identifikátor segmentu (struktury sp)  | např. ''3784'' |
+|     | nickname    | označení mluvčího | např. ''Světlana R.'' |
+|     | speaker_id      | identifikátor mluvčího | např. ''19'' |
+|     | gender    | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' |
+|     | age_binary    | věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y'' |
+|     | age        | věk mluvčího (číselně) | ''<číslo>'' |
+|     | edu_binary      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y'' |
+|     | edu_level   | vzdělání mluvčího (jemnější rozlišení) | ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' |
+|             | edu_field          | obor vzdělání  | ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z předdefinovaného seznamu  |
+|             | occupation         | zaměstnání | např. ''sociální pracovník''   |
+|             | occupation_category  | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] |
+|     | reg_childhood        | nářeční oblast místa pobytu mluvčího v dětství (do 15 let) | ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' |
+|             | loc_childhood      | místo, kde mluvčí žil do 15 let  | např. ''Praha'' |
+|     | locsize_childhood  | velikost sídla, kde mluvčí žil do 15 let věku  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  |
+|             | reg_longest        | nářeční oblast, v níž mluvčí žil nejdéle  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y''  |
+|             | locsize_longest    | velikost sídla, kde mluvčí žil nejdelší dobu  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  |
+|             | reg_current        | nářeční oblast, v níž mluvčí žije v současné době  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y''  |
+|             | locsize_current    | velikost sídla, kde mluvčí žije v současné době  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  |
+|             | proportion          | podíl segmentu na všech segmentech v sondě  | např. ''59 %'' |
+|             | soundfile          | číslo a formát nahrávky  | např. ''5/3/ef2e315f.mp3'' |
+| para    | type                | označení slov nebo skupin slov, která jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem  | ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}''  |
+| pw      | -                  | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - |
+| overlap  | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - |
+| unclear  | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - |
 ===== Rozdíly mezi korpusem ORAL a ORTOFON =====
@@ Řádek 76: / Řádek 115: @@
 <WRAP round tip 70%>
-Poukarová, P. – Kopřivová, M. – Laubeová, Z. – Lukeš, D.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz
+Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz
 Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Historie: • parlcorp • alpha • pravidla • arf • heaps • konkordance • containing • pravidla • verze4 • frekvencni_distribuce

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence