

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
en:cnk:oral [2017/07/04 16:29] – [Literatura] veronikapojarovaen:cnk:oral [2023/11/20 12:35] (current) – [ORAL Corpus] michalkren
Line 1: Line 1:
-====== Korpus ORAL ====== +====== ORAL Corpus  ====== 
-Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČRMluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníkya byli nahráváni ve svém přirozeném prostředíNahrávky byly pořizovány v průběhu deseti letv letech 20022011. Korpus není vyváženýpřevažují data z české části České republiky (více viz [[cnk:struktura_oral|složení korpusu]]). Transkripce je jednoúrovňováa pokud to bylo možnébyla spolu s tokenizací sjednocena pro všechny části korpusů+The ORAL corpus is a corpus containing the transcribed recordings of predominantly informal conversations taking place between native speakers of Czech from all regions of the Czech RepublicThe speakers knew each other very well (they were either friends or family membersand they were recorded in their natural environmentThe recordings were made over the course of ten yearsbetween 2002 and 2011. The corpus is not balancedwith the majority of the data originating from the Bohemia region of the Czech Republic (for more visit the [[cnk:struktura_oral|corpus structure]]; Czech only). There is only one level of transcriptionand wherever it was possibleit was unified along with tokenization for all parts of the corpus
-Korpus ORAL sjednocuje korpusy [[cnk:oral2006|ORAL2006]], [[cnk:oral2008|ORAL2008]],  [[cnk:oral2013|ORAL2013]] a dosud nepublikované nahrávky ORAL-Z. Celková velikost korpusu je 5 368 391 slovcelkový čas nahrávek je 582 hodinČást transkriptů není spojena se zvukem (data z korpusů ORAL2006 ORAL2008). Korpus je [[cnk:lemtag_mluv|lemmatizován a morfologicky označkován]]. Používá stejný typ [[seznamy:tagy|morfologických značek]] jako současné psané korpusy.+The ORAL corpus unifies the corpora [[en:cnk:oral2006|ORAL2006]], [[en:cnk:oral2008|ORAL2008]], [[en:cnk:oral2013|ORAL2013]] and the as yet unpublished recordings ORAL-Z. The overall size of the corpus is 5 368 391 wordswith a total recording time of 582 hoursPart of the transcripts are not linked to the audio (data from the corpora ORAL2006 and ORAL2008). The corpus is [[en:cnk:lemtag_mluv|lemmatized and morphologically tagged]]. It uses the same type of [[en:seznamy:tagy|morphological tagging]] as the contemporary written corpora.
 <WRAP right 35%> <WRAP right 35%>
-^ <fs medium>Název</fs> | <fs medium>[[cnk:oral|ORAL]]</fs>+^ <fs medium>Name</fs> | <fs medium>[[en:cnk:oral|ORAL]]</fs>
-Počet [[pojmy:token|pozic (tokenů)]] |  6 361 707 |   +Number of [[en:pojmy:token|positions (tokens)]] |  6 361 707 |   
-Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a komentářů |  5 368 392 | +Number of [[en:pojmy:token|positions (tokens)]] without punctuation or comments |  5 368 392 | 
-Počet [[pojmy:word| slovních tvarů (wordů)]] |  193 497 |   +Number of [[en:pojmy:word| word forms (words)]] |  193 497 |   
-Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  1 546 | +Number of [[en:pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|recorded conversations]] |  1 546 | 
-Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|replik]] |  696 918 | +Number of [[en:pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|speaking turns]] |  696 918 | 
-Počet unikátních (různých) mluvčích |  1 297 |   +Number of speakers |  2 807 |   
-Délka nahrávek části ORAL2013 + ORAL-Z [hh:mm:ss.ms] |  354:44:36.722 |  +Length of recordings for ORAL2013 + ORAL-Z [hh:mm:ss.ms] |  354:44:36.722 |  
 </WRAP> </WRAP>
-===== Vytvoření korpusu ORAL =====+===== Creating the ORAL corpus =====
-Korpus vznikl spojením a opravením dat z existujících korpusů ORAL2006, ORAL2008 ORAL2013 a doplněním o část ORAL-Z, která obsahuje i několik nahrávek formálních situacíTyto formální situace zachycují komunikaci, v níž jeden z mluvčích zastupuje nějakou instituci – napřpracovní rozhovorrozhovor na úřaděpři nakupování apod., nebo jde o připravený mluvený projevpřednáškuInformace o **původním korpusu**, ze kterého nahrávka pochází, umožňuje vytvořit si stejný subkorpus s opravenými daty, doplněný lemmatizací a morfologickým značkováním.+The corpus was created by merging and correcting data from the already existing corpora ORAL2006, ORAL2008 and ORAL2013, and by adding the ORAL-Z sectionwhich additionally contains several recordings of formal situationsThese formal situations capture communication in which one of the speakers represents an institution – e.g. job interviewconversation at the officein the shop etc., or else it can be a prepared speeche.g. a lecture. Information about the **original corpus** from which the recording was taken allows us to create an identical subcorpus with corrected data and with added lemmatization and morphological tagging.
-Kvůli [[:cnk:oral#Úprava transkripce|opravám a změnám tokenizace]] doznaly i dříve zveřejněné složky korpusu ORAL změn ve velikostiPro přehled případné srovnání s původními korpusy zde uvádíme velikosti všech částí nového korpusu (počet pozic bez interpunkce a komentářů počet pozic celkem):+Due to [[en:cnk:oral#Úprava transkripce|corrections and changes to tokenization]], even previously published sections of the ORAL corpus have changed in sizeTo provide an overview and comparison with the original corpora, we have included the size of all sections in the new corpus (number of positions without punctuation and comments total number of positions):
   * ORAL2006: 999 380 / 1 149 678   * ORAL2006: 999 380 / 1 149 678
Line 25: Line 25:
   * ORAL-Z: 623 688 / 763 532   * ORAL-Z: 623 688 / 763 532
-[{{ :cnk:oral:map.png?600 | Relativní zastoupení mluvčích z různých míst ČR (počty mluvčích podle místa narození).}}]+[{{ :cnk:oral:map.png?600 | Relative representations of speakers from various regions of the Czech Republic (number of speakers according to place of birth).}}]
-Absolutní počty mluvčích podle místa narození i s údaji o zeměpisné šířce a délce jsou k dispozici {{:cnk:oral:geocounts.xlsx|ke stažení ve formátu .xlsx}}. +The absolute values for the number of speakers according to place of birth, along with longitude and latitude coordinates, are available {{:cnk:oral:geocounts.xlsx|for download in .xlsx format}}. 
-==== Úprava sociolingvistických údajů ====+==== Modification of sociolinguistic data ====
-  * **nářeční oblasti** (8 tradičních české a moravské pohraničíbyly změněny podle členění v ČJA (Balhar, 1992) a jejich hranice upraveny podle novějších výzkumů (viz [[cnk:dialekt#mapa_narecnich_oblasti_cr|mapa nářečních oblastí]]) +  * **dialect regions** (8 traditional Bohemian and Moravian border areaswere changed based on the categories used in the ČJA (Balhar, 1992) and their borders were modified based on the latest research (see [[cnk:dialekt#mapa_narecnich_oblasti_cr|the map of dialect regions]]) 
-  * identifikace **shodných mluvčích**: v rámci nahrávek pořízených během let 2002–2007 (korpusy ORAL2006, ORAL2008 ORAL-Z) byli zpětně propojeni shodní mluvčív nahrávkách z let 2008–2011 (korpus ORAL2013) už tato shoda označena bylashodní mluvčí mezi oběma časovými obdobími označováni nebyli +  * marking **identical speakers**: in the recordings made in the years 2002–2007 (corpora ORAL2006, ORAL2008 and ORAL-Z), any cases of identical speakers were later connected, and in recordings from the years 2008–2011 (ORAL2013 corpusthis congruence had already been markedidentical speakers across both time periods were not marked 
-  * doplnění **přezdívky** pro identifikaci totožného mluvčíhokaždý mluvčí je v korpusu ORAL označen náhodně vybraným českým křestním jménem odpovídajícího pohlaví identifikačním číslem (např. Simona_450)((V korpusu ORAL2013 byla přezdívka tvořena náhodně vygenerovaným shlukem písmen, pro ženy zakončena vokálem, pro muže konsonantem.))  +  * adding an **alias** for the identification of the same speakerevery single speaker in the ORAL corpus is labelled with a randomly chosen Czech first name of the corresponding gender identification number (e.g. Simona_450)((In the ORAL2013 corpus the alias was formed by a randomly generated string of letters ending with a vowel for women and a consonant for men.))  
-  * nově doplněno pro všechny mluvčí **zaměstnání** podle klasifikace zaměstnání a **údaj o tom, kolika procenty se dotyčný mluvčí podílí** na počtu tokenů (korpusových pozic) v nahrávce (viz [[pojmy:atributy_strukturni#atributy_spolecne_vsem_korpusum_rady_oral|údaje o mluvčím]])+  * newly added **employment** for all speakers based on the classification of employment and **the percentage of the given speaker's share** in the number of tokens (positions in the corpusin the recording
-  * stejné zůstávají **binární kategorie** pro  +  * the **binary categories** remain the same for  
-    * pohlavíženymuži +    * genderfemalemale 
-    * věk: 18–35 let, 35 let a více +    * age: 18–35 years, 35 years and up 
-    * vzdělánínižší (a vyšší (VŠ i započaté)+    * educationlower (primary schoolhigh schooland higher (university education - including unfinished)
-==== Úprava segmentace ==== +==== Modification of segmentation ==== 
-  * maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slovu části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem+  * the maximum **segment length** for recordings linked to audio from the ORAL2013 section of the corpus is 15 wordsand 25 words for the ORAL-Z section (made longer in order for the given section to be heard better); transcripts without audio are segmented into speaker turns (one speaker's section of speech before he is superseded by his communication partner
-  * **přerušení repliky** druhým mluvčímpo kterém došlo k **navázání** na původní téma, se označuje znaménkem plus ''(+)''; pokud nedošlo k navázání na původní témaznaménkem minus ''(-)'' +  * **turn which was interrupted** by the second speakerfollowing which the original topic was **reestablished** is marked with a plus sign ''(+)''; if the original topic was not brought up againit is marked with a minus sign ''(-)'' 
-  * **interpunkce** v částech ORAL2013 ORAL-Z je pauzovásyntaktická interpunkceužívaná pro korpusy ORAL2006 ORAL2008, byla změněna následujícím způsobemčárky byly smazány bez náhradytečky byly nahrazeny čárkami +  * **punctuation** in the ORAL2013 and ORAL-Z sections is pause-basedsyntactic punctuationused in the ORAL2006 and ORAL2008 corporawas altered in the following waycommas were deleted with no replacementfull stops were replaced by commas 
-==== Úprava transkripce ==== +==== Modification of transcription ==== 
-Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusyv některých případech však došlo k jejich úpravě sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenčníneměnné podobě.)). Přepis dat z části ORAL-Z odpovídá v podstatě transkripčním zásadám korpusu {{:cnk:prepisovaci_pravidla_oral2013.pdf|ORAL2013}}. Rozdílnost transkripce je způsobena nejen chybami a změnou pravidelale často i možností dubletního zápisu v psaných textech.+Transcription in the joint corpus ORAL retains most of the usual corpus transcription rules. Howeverin number of cases they have been modified and unified ((All previously published corpora simultaneously remain in a referentialunaltered form.)). The transcript of sections of the ORAL-Z corpus essentially conforms to the transcription rules of the {{:cnk:prepisovaci_pravidla_oral2013.pdf|ORAL2013}} corpusThe differences of the transcriptions are caused not only by errors and changed rulesbut often also by the possibility of double entries in written texts.
-Tamkde to bylo možné, byla transkripce sjednocována následujícím způsobem+Wherever possiblethe transcription was unified in the following manner
-   *** psaní dohromady:**  slova cizího původu (//nonstop, secondhand//), citátová spojení (//apriori, defacto//), spřežky s možností dvojího zápisu (//bezesporu, načerno, vodmalička//), číslovky s komponentem krát (//čtyřikrát//), substantivizované číslovky (//dvacetdevítka//), spojky (//anebo, abysem//), citoslovce (//bubu, čičí, díkybohu//),  +   *** written together:**  foreign origin words (//nonstop, secondhand//), quoted phrases (//apriori, defacto//), digraphs with two possible spellings (//bezesporu, načerno, vodmalička//), numerals with the component "krát(//čtyřikrát//), substantivized numerals (//dvacetdevítka//), conjuncts (//anebo, abysem//), interjections (//bubu, čičí, díkybohu//),  
-   *** psaní zvlášť**: víceslovné kontaktové výrazy (//no no; prosim tě//), spojky (//i když//), číslovky (//čtyři sta, dvacet dva, dvacátýho devátýho//), víceslovná adverbia (//přece jenom, všude možně//), výrazy s komponentem //(ne)vím// (//nevim kam; nevím co, bůh ví, čert ví//) a spojení předložky a zájmena //na ňho//. +   *** written separately**: multiword contact expressions (//no no; prosim tě//), conjuncts (//i když//), numerals (//čtyři sta, dvacet dva, dvacátýho devátýho//), multiword adverbials (//přece jenom, všude možně//), expressions with a component //(ne)vím// (//nevim kam; nevím co, bůh ví, čert ví//and and phrases with preposition and pronoun //na ňho//. 
-  *** psaní s malým počátečním písmenem**: jména nápojů (//frankovka, mattonka, gambrinus//), značky vozidel (//fabia, fiat, zetor//), internetových vyhledávačů //google, youtube//+  *** written with a lower case first letter**: names of beverages (//frankovka, mattonka, gambrinus//), vehicle brand names (//fabia, fiat, zetor//), internet browsers //google, youtube//
-Citlivé osobní údaje jsou v přepisech [[cnk:oral:pravidla#anonymizacni_znacky|kódovány]] podle přání nahrávajících. +Sensitive personal information is encoded in the transcription according to the wishes of the recorded speakersMore detailed information and an overview of the transcription symbols can be found in the [[cnk:oral:pravidla|Transcription]] section (Czech only).
-Podrobnější údaje a přehled transkripčních značek se nachází v oddílu [[cnk:oral:pravidla|Transkripce]].+
-===== Zobrazení  ===== +===== View ===== 
-Pro mluvené korpusy byl zároveň implementován novýnázorný způsob zobrazení dialogukterý přehledně ukazuje střídání mluvčíchzachycuje jejich souběžný hovor (pro části ORAL2013 ORAL-Z) a pomocí přezdívky jednoznačně identifikuje mluvčí.+For spoken corpora we have implemented a newgraphic interface for viewing dialogueswhich clearly shows the alternating speakerscaptures their concurrent speech (for the ORAL2013 and ORAL-Z sectionsand distinctly identifies the speaker with the help of the alias.
-[{{:cnk:oral5_promluvy_kocka.png | Zobrazení promluv a překryvu v dialogu. }}]+[{{:cnk:oral5_promluvy_kocka.png | The depiction of utterances and overlaps in dialogue. }}]
Line 75: Line 74:
 <WRAP round tip 80%> <WRAP round tip 80%>
-Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: //ORAL: korpus neformální mluvené češtiny, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from : http://www.korpus.cz+Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: //ORAL: korpus neformální mluvené češtiny, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from: http://www.korpus.cz
-Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (in print).+Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. (2017): Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 15, 47-67.
 Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: //TSD 2015//, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350. Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: //TSD 2015//, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350.
Line 85: Line 84:
 <WRAP round box 72%> <WRAP round box 72%>
-[[en:cnk:oral:pravidla|Transcription in the ORAL corpus]] • [[en:cnk:ortofon|ORTOFON]] • [[en:cnk:oral2006|ORAL2006]] • [[en:cnk:oral2008|ORAL2008]] • [[en:cnk:oral2013|ORAL2013]] • [[en:cnk:dialekt|Dialect]] • [[en:pojmy:mluveny|Spoken language corpus]] • [[en:pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|ORAL corpus structure]] • [[en:kurz:hledani_v_mluvenych_korpusech|Searching in spoken corpora]] • [[en:kurz:hledani_ORTOFON|Searching in the ORTOFON corpus]]+[[en:cnk:ortofon|ORTOFON]] • [[en:cnk:oral2006|ORAL2006]] • [[en:cnk:oral2008|ORAL2008]] • [[en:cnk:oral2013|ORAL2013]] • [[en:cnk:dialekt|Dialect]]
  </WRAP>  </WRAP>