AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:ortofon [2022/06/02 12:34] – [Strukturní atributy korpusu ORTOFON] jankrivancnk:ortofon [2025/04/15 10:42] (aktuální) – [Jak citovat] michalkren
Řádek 1: Řádek 1:
 ====== Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON ====== ====== Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON ======
  
-Korpus ORTOFON navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk:oral|ORAL]]. Společně s korpusem [[cnk:dialekt|DIALEKT]] se jedná o první dva mluvené korpusy češtiny, které disponují víceúrovňovým přepisem. Stejně jako korpusy řady ORAL shromažďuje i ORTOFON spontánní mluvený jazyk užívaný v neformálních situacích mezi mluvčími, kteří se znají. Podobně jako v korpusu [[cnk:oral2013|ORAL2013]] pocházejí mluvčí z celé České republiky a jsou o nich shromažďovány vybrané sociologické informace. +Korpus ORTOFON zachycuje spontánní mluvený jazyk používaný v neformálních situacích mezi mluvčími, kteří se znají. Navazuje svou koncepcí sběru dat na korpusy neformální mluvené češtiny řady [[cnk:oral|ORAL]]. Nahrávky jsou přepisovány ve dvou stopách – ortografické a fonetické. Společně s korpusem [[cnk:dialekt|DIALEKT]] se jedná o první dva mluvené korpusy češtiny, které disponují víceúrovňovým přepisem. Podobně jako v korpusu [[cnk:oral2013|ORAL2013]] pocházejí mluvčí z celé České republiky a jsou o nich shromažďovány vybrané sociologické informace. Korpus je lemmatizován a morfologicky značkován. Přepis je propojen se zvukovou stopou a v korpusovém rozhraní KonText si lze zvukový záznam přehrát.
  
-Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlavívěková skupinavýše dosaženého vzdělání a oblast pobytu v dětství). Korpus je [[cnk:lemtag_mluv|lemmatizován a morfologicky značkován]] stejně jako korpus ORALtranskript je propojen se zvukovou stopou.+Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazykatj. lexikonmorfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkumale přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností.
  
-Korpus ORTOFON umožňuje zkoumat různé aspekty mluveného jazyka, tj. lexikon, morfologii, syntax, pragmatiku, výstavbu dialogu. Korpus není primárně určen pro dialektologický((Pro tento typ výzkumu je určen korpus [[cnk:dialekt|DIALEKT]].)) či fonetický výzkum, přesto zjednodušený fonetický přepis umožňuje ověřit existenci výslovnostních či regionálních variant nebo jevů souvisejících s výslovností.+Korpus ORTOFON spolu se spojeným korpusem [[cnk:oral|ORAL]] uživatelům umožňuje zkoumání neformální mluvené češtiny v dosud nejrozsáhlejším komplexu dat z období let 2002–2020.
  
-Zveřejněním korpusu ORTOFON spolu se spojeným korpusem [[cnk:oral|ORAL]] se uživatelům otvírá možnost zkoumání neformální mluvené češtiny v dosud nejrozsáhlejším komplexu dat z patnáctiletého období (2002-2017). +<WRAP 45%> 
- +^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v1</fs<fs medium>[[cnk:ortofon|ORTOFON]]•v2</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v3</fs> | 
-<WRAP right 35%> +^ Počet [[pojmy:token|pozic (tokenů)]] |  1 236 508 |  2 560 590 |  2 976 742 |   
-<fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v1</fs> | +^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů |  1 014 786 |  2 101 214 |  2 445 793 
-^ Počet [[pojmy:token|pozic (tokenů)]] |  1 236 508 |   +^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 294 |  101 500 |  110 127 |  
-^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů |  1 014 786 | +^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] |  332 |  615 |  697 
-^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  65 294 |   +^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] |  172 736 |  360 248 |  419 533 
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  332 | +^ Počet unikátních (různých) mluvčích |  625 |  1020 |  1 121 |  
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  172 736 | +^ Délka nahrávek [hh:mm:ss.ms] |  102:41:14.247 |  210:09:35.155 |  243:00:07.232 |  
-^ Počet unikátních (různých) mluvčích |  624 |   +
-^ Délka nahrávek [hh:mm:ss.ms] |  102:41:14.247 |  +
 </WRAP> </WRAP>
  
-===== Složení korpusu a sběr dat =====+===== Sběr dat =====
  
-Korpus ORTOFON se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezskujejich celková délka je téměř 103 hodinVíce kvantitativních údajů viz na stránce o [[cnk:struktura_ortofon|složení korpusu]].+Korpus zachycuje výhradně neformálníspontánní a přirozené situaceMateriál byl sbírán v souladu s [[cnk:oral2013#slozeni_korpusu_a_sber_dat|kritérii]] platnými pro korpusy řady ORAL:
  
-Materiál byl sbírán souladu s [[cnk:oral2013#slozeni_korpusu_a_sber_dat|kritérii]] platnými pro korpusy řady ORALVzhledem k fonetické vrstvě episu byl kladen vyšší důraz na kvalitu nahrávek. Regionální původ mluvčích zahrnutých v korpusu ukazuje následující mapa. Hranice jednotlivých nářečních oblastí byly pro korpusy ORTOFON i DIALEKT zpřesněny.+  * fyzická přítomnost všech mluvčích na jednom místě (výjimkou jsou telefonní rozhovory na hlasitý odposlech, přípkomunikace es Skype nebo Zoom, kdy jsou zaznamenáváni všichni zúčastnění mluvčí po celou dobu rozhovoru); 
 +  * dialogičnost promluv (rozhovor dvou nebo více mluvčích); 
 +  * vzájemný blízký vztah mluvčích; 
 +  * nepřipravenost, spontánnost projevu; 
 +  * neveřejná a neoficiální komunikační situace.
  
-[{{:cnk:ortofon:map.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]+Vzhledem k tomu, že byla ručně zpracovávána fonetická stopa v přepisu, byl kladen vyšší důraz na kvalitu nahrávekO situaci i mluvčích byly zaznamenány vybrané sociologické údaje. Nahrávky zachycují dospělé rodilé mluvčí českého jazyka pocházející ze všech částí České republiky. 
 +Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK
  
-Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:ortofon:geocounts.xlsx|ke stažení ve formátu .xlsx}}. +===== Strukturní atributy korpusu ORTOFON =====
  
-===== Vyváženost korpusu =====+Struktury a strukturní atributy korpusu ORTOFON jsou popsány na [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_ortofon_a_spojeneho_korpusu_oral|zvláštní stránce]].
  
-Již při sběru dat bylo dbáno na maximální možnou variabilitu mluvčích v rámci všech nářečních oblastí. Materiál byl proto průběžně vyvažován v rámci základních čtyř sociolingvistických kategorií: pohlaví, věk, nejvyšší dosažené vzdělání a nářeční oblast, v níž mluvčí strávil většinu života do svých 15 let. První tři kategorie, tj. pohlaví, věk, vzdělání, byly rozděleny binárně (viz obrázek), čtvrtá kategrie byla rozvržena do deseti skupin, tj. deseti nářečních oblastí. Následující obrázek představuje rozvržení binárních kategorií v rámci jedné nářeční oblasti. Každá oblast by tedy měla obsahovat stejný počet slov od mužů a žen, od osob ve věku 18-34 let a starších 35 let, od osob s nejvyšším dosaženým vzděláním maturitním a vysokoškolským. 
  
-[{{:cnk:ortofon-vysece.png?400 | Rozvržení binárních sociolingvistických kategorií v jedné nářeční oblasti. }}]+===== Morfologické značkování korpusu ORTOFON =====
  
-Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNKS ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných - pohlaví (2) × (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) - stanovena cílová hranice 12 500 slov. +Korpus ORTOFON v3 je automaticky [[pojmy:anotace|anotován]], a to [[seznamy:tagy|novou morfologickou značkou]] podle standardu SYN2020Jsou něm mj. rozpoznány [[pojmy:agregat|agregáty]] (např. //vidělas//, //zač//)využívá se [[cnk:syn2020:lemmatizace|dvojúrovňové lemmatizace]] a k dispozici je i slovesná značka ([[pojmy:verbtag|verbtag]]). 
-Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu+
  
-===== Strukturní atributy korpusu ORTOFON =====+korpusu jsou označkovány i substandardní varianty a tvary typické pro nářečí a spontánní mluvenou řeč. Zvláštní varianty slov jsou odlišené vlastním sublemmatem (např. //poslúchat// pod lemmatem //poslouchat//), zvláštní tvary značkované jen v mluveném korpusu mají na poslední pozici tagu číslo ''%%9%%'' (např. tvar //jezdijó// má tag ''%%VB-P---3P-AAI-9%%''). 
  
-^ Struktura ^ Atribut ^ Popis ^ Možné hodnoty ^ +Na první pozici tagu (slovní druh) jsou dále použity tyto specifické značky: 
-| doc | id            | jednoznačný identifikátor sondy | ''<řetězec čísel a velkých písmen>'' | + 
-|     | year          | rok nahrání sondy | např. ''2008'' | + Značka   Význam  ^ 
-|     | month          | měsíc nahrání sondy | např. ''7''+|  E fragmenty (nedořečená slova) | 
-|     | location          | místo nahrání sondy | např. ''Liberec''+    neverbální zvuky (např. hezitač) | 
-|     | situation      | typ mluvní situace sondy | např. ''hovor doma''+|  M komentářepisujících (kulatých závorkách) | 
-|     | speakers      | počet mluvčích v nahrávce | ''<číslo>''+|  W anonymizované úseky (především jména) |  
-|     | relationship      | vztah mezi mluvčími v nahrávce | např. ''partnerský''+ 
-|     | genders      | pohlaví mluvčích v nahrávce | ''{jen ženy, jen muži, smíšené}''  +Pozn. Anonymizované úseky jsou specifikovány na základní rovině ''%%word%%'': NP – příjmeníNJ – křestní jménoNN – přezdívkaNM – místní jménoNO – ostatní vlastní jménaNT – poslední dvojčíslí telefonního čísla
-|     | generations   | počet generací mluvčích v nahrávce  | ''{1'' (vrstevníci)'',2'' (mladší a starší mluvčí v nahrávce)''}'' atd.  + 
-|     | length   | délka nahrávky  | např. ''10:47'' | +Korpusy ORAL v1ORTOFON v1 a v2 a DIALEKT v1 a v2 jsou označkované [[seznamy:tagy_archiv|původní morfologickou značkou]] (ve verzi bez značení kategorie vidu). Podrobné informace anotaci těchto dříve zveřejněných korpusů jsou uvedeny na [[cnk:lemtag_mluv|zvláštní stránce]].
-    | tokens   | počet tokenův rámci sondy | např. ''2134''+
-| sp  id       | identifikátor segmentu (struktury sp)  | např. ''3784''+
-|     | nickname    | označení mluvčího | např. ''Světlana R.''+
-|     | speaker_id      | identifikátor mluvčího | např. ''19''+
-|     | gender    | pohlaví mluvčího | ''{M'' (muž)'', Z'' (žena)''}'' nebo ''Y'' +
-    | age_binary    věková kategorie mluvčího | ''{I'' (iunior, mladší: ca 20–35 let)'',V'' (vetus, starší: 35 let a více)''}'' nebo ''Y''+
-|     | age        | věk mluvčího (číselně) | ''<číslo>''+
-|     | edu_binary      | vzdělání mluvčího (hrubé rozlišení) | ''{A''(altus, vysokoškolské včetně pouze započatého)'',B''(basis, základní a středoškolské)''}'' nebo ''Y''+
-|     | edu_level   | vzdělání mluvčího (jemnější rozlišení| ''{SŠ,VŠ,ZŠ}'' nebo ''Y'' +
-            | edu_field          | obor vzdělání  ''{ekologie a ochrana životního prostředí, strojírenství, elektrotechnika, zdravotnictví, doprava a spoje, právo a právní činnost}'' a další, výběr oborů z eddefinovaného seznamu +
-|             | occupation         | zaměstnání | např. ''sociální pracovník''   | +
-|             | occupation_category  | specifikace zaměstnání podle [[https://www.czso.cz/csu/czso/klasifikace_zamestnani_-cz_isco-|ČZSO]] |  +
-|     | reg_childhood        | nářeční oblast místa pobytu mluvčího dětství (do 15 let| ''{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}'' nebo ''Y'' +
-            | loc_childhood      | místo, kde mluvčí žil do 15 let  např. ''Praha'' +
-|     | locsize_childhood  | velikost sídla, kde mluvčí žil do 15 let věku  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y''  | +
-|             | reg_longest        | nářeční oblast, v níž mluvčí žil nejdéle  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravská, slezská, středočeská, východomoravská, západočeská}'' nebo ''Y'' +
-|             | locsize_longest    | velikost sídla, kde mluvčí žil nejdelší dobu  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' +
-|             | reg_current        | nářeční oblastv níž mluvčí žije v současné době  | ''{česko-moravská, jihočeská, pohraničí české, pohraničí moravské, severovýchodočeská, středomoravskáslezská, středočeskávýchodomoravskázápadočeská}'' nebo ''Y'' +
-|             | locsize_current    | velikost sídlakde mluvčí žije v současné době  | ''{město nad 100 tisíc, město nad 50 tisíc, město nad 10 tisíc, město pod 10 tisíc, vesnice}'' nebo ''Y'' +
-|             | proportion          | podíl segmentu na všech segmentech v sondě  | např''59 %'' | +
-|             | soundfile          | číslo a formát nahrávky  | např. ''5/3/ef2e315f.mp3'' | +
-| para    | type                | označení slov nebo skupin slovkterá jsou vyslovena s určitým charakteristickým/výrazným/nápadným doprovodným rysem  ''{šeptem, s plnou pusou, se smíchem, cizojazyčný projev, čtený text, s křikem, s pláčem, nahlas, potichu, imitace, záměrné zkomolení slova, přeřeknutí, recitováno, potichu, s povzdechem, rychle, slabikováno, zpíváno, se zíváním}'' +
-| pw      | -                  | struktura obaluje pozice, které tvoří jedno zvukové slovo (přízvukový takt) | - |  +
-| overlap  | - | struktura obaluje pozice řečené v překryvu s jiným mluvčím | - |  +
-| unclear  | - | struktura obaluje pozice, u nichž si přepisující nebyl jist obsahem řečeného | - +
  
 ===== Rozdíly mezi korpusem ORAL a ORTOFON ===== ===== Rozdíly mezi korpusem ORAL a ORTOFON =====
  
-  * **Víceúrovňový přepis**: Přepis mluveného jazyka v korpusu ORTOFON realizován na dvou rovinách: **ortografické** a **fonetické**. Ortografická rovina slouží primárně k porozumění nahranému rozhovoru a orientaci v něm, zatímco fonetická rovina zachycuje skutečnou realizaci vyřčeného pomocí upraveného fonetického přepisu. Tyto dvě roviny doprovází ještě **metajazyková**, která zachycuje doprovodné zvuky produkované mluvčími (např. smích, kašel) nebo přítomné v okolí s možností ovlivnit rozhovor (např. zvonění telefonu může vést k přerušení dialogu). Více viz [[cnk:ortofon:pravidla|transkripční zásady]]. +  * **Víceúrovňový přepis**: Korpus ORAL obsahuje jednu rovinu přepisu, která se snaží zachytit variabilitu mluveného jazyka běžným pravopisem a bez použití speciálních znaků. Přepis nahrávek je v korpusu ORTOFON realizován na dvou rovinách: **ortografické** a **fonetické**. Ortografická rovina slouží primárně k porozumění nahranému rozhovoru a orientaci v něm, zatímco fonetická rovina zachycuje skutečnou realizaci vyřčeného pomocí upraveného fonetického přepisu. Tyto dvě roviny doprovází ještě **metajazyková**, která zachycuje doprovodné zvuky produkované mluvčími (např. smích, kašel) nebo přítomné v okolí s možností ovlivnit rozhovor (např. zvonění telefonu může vést k přerušení dialogu). Více viz [[cnk:ortofon:pravidla|transkripční zásady]]. 
-  * **Pauzová interpunkce založená na délce pauz**: Část korpusu [[cnk:oral|ORAL]], konkrétně ORAL2013 a ORAL-Z, obsahuje pauzovou interpunkci založenou na intuitivním rozlišení kratších a delších pauz podle tempa mluvy konkrétního mluvčího. V korpusu ORTOFON jsou rozlišovány tři druhy pauz podle časového kritéria: předěly (méně než 120 ms), pauzy (120 ms 2 s), dlouhé pauzy (delší než 2 s). +  * **Pauzová interpunkce založená na délce pauz**: Část korpusu [[cnk:oral|ORAL]], konkrétně ORAL2013 a ORAL-Z, obsahuje pauzovou interpunkci založenou na intuitivním rozlišení kratších a delších pauz podle tempa mluvy konkrétního mluvčího. V korpusu ORTOFON jsou rozlišovány tři druhy pauz podle časového kritéria: předěly (méně než 120 ms), pauzy (120 ms – 2 s), dlouhé pauzy (delší než 2 s). 
-  * **Plná vyváženost korpusu**:  V korpusu ORTOFON je každá kombinace čtyř sociolingvistických proměnných prezentována jako stejně velká skupina, srov. [[cnk:oral2013#co_ma_oral2013_s_korpusy_oral2006_a_oral2008_spolecneho|ORAL2013]].+  * **Plná vyváženost korpusu**:  V korpusu ORTOFON v1 je každá kombinace čtyř sociolingvistických proměnných prezentována jako stejně velká skupina, srov. [[cnk:oral2013#co_ma_oral2013_s_korpusy_oral2006_a_oral2008_spolecneho|ORAL2013]].
   * **Pestré zastoupení mluvčích z celé České republiky**: Vymezení jednotlivých nářečních oblastí vychází z nářečního členění používaného v [[http://cja.ujc.cas.cz/cja.html|Českém jazykovém atlase]], hranice oblastí však byly zpřesněny (viz [[cnk:dialekt#mapa_narecnich_oblasti_cr|mapa nářečních oblastí]]). Při sběru dat bylo dbáno na variabilitu mluvčích i obcí, z nichž pocházejí.   * **Pestré zastoupení mluvčích z celé České republiky**: Vymezení jednotlivých nářečních oblastí vychází z nářečního členění používaného v [[http://cja.ujc.cas.cz/cja.html|Českém jazykovém atlase]], hranice oblastí však byly zpřesněny (viz [[cnk:dialekt#mapa_narecnich_oblasti_cr|mapa nářečních oblastí]]). Při sběru dat bylo dbáno na variabilitu mluvčích i obcí, z nichž pocházejí.
   * **Rozšíření segmentu k poslechu**: Segment odděleného transkriptu může být dlouhý až 25 slov, což zlepšuje možnosti poslechu zvukového segmentu.   * **Rozšíření segmentu k poslechu**: Segment odděleného transkriptu může být dlouhý až 25 slov, což zlepšuje možnosti poslechu zvukového segmentu.
-  * **Jiný způsob značení překryvů**: Překryvy jsou v traskriptu značeny hranatými závorkami, nejsou oddělovány ve zvuku, aby bylo možné je lépe poslouchat, srov. [[cnk:oral2013|ORAL2013]]. V korpusovém manažeru KonTextu jsou zobrazeny jako [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|strukturní atributy]] (více viz [[kurz:hledani_ortofon| hledání v korpusu ORTOFON]]).+  * **Jiný způsob značení překryvů**: Překryvy jsou v traskriptu značeny hranatými závorkami, nejsou oddělovány ve zvuku, aby bylo možné je lépe poslouchat, srov. [[cnk:oral2013|ORAL2013]]. V korpusovém manažeru KonTextu jsou zobrazeny jako [[pojmy:atributy_strukturni#strukturni_atributy_mluvenych_korpusu|strukturní atributy]].
   * **Dostupnost audia**: Celý korpus ORTOFON je propojen se zvukem, takže je možné si vyhledanou konkordanci poslechnout (u korpusu [[cnk:oral|ORAL]] jenom části ORAL-Z a ORAL2013).   * **Dostupnost audia**: Celý korpus ORTOFON je propojen se zvukem, takže je možné si vyhledanou konkordanci poslechnout (u korpusu [[cnk:oral|ORAL]] jenom části ORAL-Z a ORAL2013).
   * **Nové metainformace**: Byl rozšířen soubor metainformací sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_ortofon|přehled strukturních atributů]].   * **Nové metainformace**: Byl rozšířen soubor metainformací sbíraných k celé nahrávce i jednotlivým mluvčím. Více viz [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_ortofon|přehled strukturních atributů]].
 +===== ORTOFON v1 (2017) =====
  
-<WRAP right 35%> +Ve své první verzi, zveřejněné v roce 2017, byl korpus ORTOFON prvním korpusem, který byl plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupinavýše dosaženého vzdělání oblast pobytu v dětství).\\ 
-^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v2</fs>+Korpus ORTOFON v1 se skládá z 332 nahrávek z let 2012–2017 a obsahuje 1 014 786 textových slov, tj. celkem 1 236 508 pozic; v sondách vystupuje celkem 624 různých mluvčích. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je téměř 103 hodin. Více kvantitativních údajů o složení korpusu je k dispozici na stránce [[cnk:struktura_ortofon|složení korpusu]]. 
-^ Počet [[pojmy:token|pozic (tokenů)]] |  2 560 590 |   +===== Vyváženost korpusu ORTOFON v1 =====
-^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkcehezitačních citoslovečných zvuků a komentářů |  2 101 214 | +
-^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  101 502 |   +
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  615 | +
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  360 248 | +
-^ Počet unikátních (různýchmluvčích |  960 |   +
-^ Délka nahrávek [hh:mm:ss.ms|  210:09:35.155 |   +
-</WRAP>+
  
-===== Verze 2 (2020=====+Již při sběru dat bylo dbáno na maximální možnou variabilitu mluvčích v rámci všech nářečních oblastí. Materiál byl proto průběžně vyvažován v rámci základních čtyř sociolingvistických kategorií: pohlaví, věk, nejvyšší dosažené vzdělání a nářeční oblast, v níž mluvčí strávil většinu života do svých 15 let. První tři kategorie, tj. pohlaví, věk, vzdělání, byly rozděleny binárně (viz obrázek), čtvrtá kategrie byla rozvržena do deseti skupin, tj. deseti nářečních oblastí. Následující obrázek představuje rozvržení binárních kategorií v rámci jedné nářeční oblasti. Každá oblast by tedy měla obsahovat stejný počet slov od mužů a žen, od osob ve věku 18–34 let a starších 35 let, od osob s nejvyšším dosaženým vzděláním maturitním a vysokoškolským.
  
-V roce 2020 byla zveřejněna rozšířená verze korpusu obsahující nahrávky z let 2012–2019. Na rozdíl od původní verze **není vyvážená**, jejím cílem je zpřístupnit co největší množství sebraného materiálu. Sběr neformálních dialogů pokračuje a část staršího materiálu se pro vydání zatím ještě připravuje, ale i tak je nárůst oproti předchozí verzi dvojnásobný.+[{{:cnk:ortofon-vysece.png?400 | Rozvržení binárních sociolingvistických kategorií v jedné nářeční oblasti. }}] 
 + 
 +Základní koncepcí byla myšlenka stejného proporčního zastoupení uvedených sociolingvistických kategorií, uplatňovaných při sběru materiálu u všech mluvených korpusů ČNK. S ohledem na cílenou velikost korpusu (1 000 000 slov) byla pro každou kategorii prezentovanou kombinací čtyř proměnných – pohlaví (2) × věk (2) × vzdělání (2) × nářeční oblast pobytu do 15 let (10) – stanovena cílová hranice 12 500 slov. 
 +Ve snaze o co největší pestrost mluvčích v rámci každé kategorie byl stanoven minimální limit pět různých mluvčích ((Feagin, C. (2002). Entering the community: Fieldwork. Chambers, J. K., Trudgill, P. and Schilling-Estes, N., editors, //The Handbook of Language Variation and Change//, 20–39. Blackwell Publishing, Malden, MA.)). Cílem tohoto opatření bylo omezit vliv idiolektu.  
 + 
 +===== ORTOFON v2 (2020) ===== 
 + 
 +V roce 2020 byla zveřejněna rozšířená verze korpusu obsahující nahrávky z let 2012–2019. Na rozdíl od první verze **není vyvážená**, jejím cílem je zpřístupnit co největší množství sebraného materiálu. Sběr neformálních dialogů pokračuje a část staršího materiálu se pro vydání zatím ještě připravuje, ale i tak je nárůst oproti předchozí verzi dvojnásobný. Krom toho korpus obsahuje mnohá drobná vylepšení v konzistentnosti transkripce a v anotaci. 
 + 
 +===== ORTOFON v3 (2024) ===== 
 + 
 +V roce 2024 byla zveřejněna 3. verze korpusu ORTOFON. Obsahuje 2 445 793 slov a na 697 nahrávkách, pořízených v letech 2012–2020 a čítajících 243 hodin, zachycuje 1 121 mluvčích pocházejících z celé České republiky. Zahrnuje v sobě data i z obou předchozích verzí korpusu. Stejně jako druhá verze není ani tato vyvážená. V korpusovém rozhraní KonText je zpřístupněn přepis na ortografické a fonetické rovině i odpovídající zvukový záznam. Pro tuto verzi byla odstraněna řada nekonzistencí v traskripci a provedeno množství oprav.
  
-Krom toho korpus obsahuje mnohá drobná vylepšení v konzistentnosti transkripce a v anotaci.+Korpus ORTOFON v3 je automaticky **anotován podle standardu SYN2020**, více viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|výš]].
  
 ===== Poděkování ===== ===== Poděkování =====
Řádek 115: Řádek 96:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
 +
 +**Korpus jako zdroj dat**
 +
 +Lukeš, D. – Kopřivová, M. – Laubeová, Z. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J. – Waclawičová, M. – Benešová, L. – Škarpová, M.:  //ORTOFON v3: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2024. Dostupný z WWW: http://www.korpus.cz
 +
 Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz
  
 Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
  
-Komrsková, Z. Kopřivová, M. Lukeš, D. Poukarová, P. Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.+**Literatura** 
 + 
 +Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.
  
 Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544. Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544.
  
-Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In //Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)//. Reykjavík, Iceland, European Language Resources Association, 376-382.+Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D. (2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In //Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)//. Reykjavík, Iceland, European Language Resources Association, 376-382.
 </WRAP> </WRAP>
  
Řádek 129: Řádek 117:
  
 <WRAP round box 72%> <WRAP round box 72%>
-[[cnk:ortofon:pravidla|Pravidla pro přepis nahrávek v korpusu ORTOFON]] • [[kurz:hledani_ORTOFON|Hledání v korpusu ORTOFON]] • [[ORAL]] • [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[cnk:lemtag_mluv|Lemmatizace a tagování mluvených korpusů]]+[[cnk:ortofon:pravidla|Pravidla pro přepis nahrávek v korpusu ORTOFON]] • [[ORAL]] • [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[PMK]] • [[BMK]] • [[SCHOLA2010]] • [[cnk:dialekt|Dialekt]] • [[pojmy:mluveny|Korpus mluveného jazyka]] • [[pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|Struktura korpusů ORAL]] • [[kurz:hledani_v_mluvenych_korpusech|Hledání v mluvených korpusech]] • [[cnk:lemtag_mluv|Lemmatizace a tagování mluvených korpusů]]
  </WRAP>  </WRAP>