AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Next revisionBoth sides next revision
en:cnk:oral [2017/07/04 18:31] – [Úprava sociolingvistických údajů] veronikapojarovaen:cnk:oral [2017/07/18 14:55] – [Related links] michalkren
Line 41: Line 41:
     * education: lower (primary school, high school) and higher (university education - including unfinished)     * education: lower (primary school, high school) and higher (university education - including unfinished)
  
-==== Úprava segmentace ==== +==== Modification of segmentation ==== 
-  * maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slovu části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem+  * the maximum **segment length** for recordings linked to audio from the ORAL2013 section of the corpus is 15 wordsand 25 words for the ORAL-Z section (made longer in order for the given section to be heard better); transcripts without audio are segmented into speaker turns (one speaker's section of speech before he is superseded by his communication partner
-  * **přerušení repliky** druhým mluvčímpo kterém došlo k **navázání** na původní téma, se označuje znaménkem plus ''(+)''; pokud nedošlo k navázání na původní témaznaménkem minus ''(-)'' +  * **turn which was interrupted** by the second speakerfollowing which the original topic was **reestablished** is marked with a plus sign ''(+)''; if the original topic was not brought up againit is marked with a minus sign ''(-)'' 
-  * **interpunkce** v částech ORAL2013 ORAL-Z je pauzovásyntaktická interpunkceužívaná pro korpusy ORAL2006 ORAL2008, byla změněna následujícím způsobemčárky byly smazány bez náhradytečky byly nahrazeny čárkami +  * **punctuation** in the ORAL2013 and ORAL-Z sections is pause-basedsyntactic punctuationused in the ORAL2006 and ORAL2008 corporawas altered in the following waycommas were deleted with no replacementfull stops were replaced by commas 
-==== Úprava transkripce ==== +==== Modification of transcription ==== 
-Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusyv některých případech však došlo k jejich úpravě sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenčníneměnné podobě.)). Přepis dat z části ORAL-Z odpovídá v podstatě transkripčním zásadám korpusu {{:cnk:prepisovaci_pravidla_oral2013.pdf|ORAL2013}}. Rozdílnost transkripce je způsobena nejen chybami a změnou pravidelale často i možností dubletního zápisu v psaných textech.+Transcription in the joint corpus ORAL retains most of the usual corpus transcription rules. Howeverin number of cases they have been modified and unified ((All previously published corpora simultaneously remain in a referentialunaltered form.)). The transcript of sections of the ORAL-Z corpus essentially conforms to the transcription rules of the {{:cnk:prepisovaci_pravidla_oral2013.pdf|ORAL2013}} corpusThe differences of the transcriptions are caused not only by errors and changed rulesbut often also by the possibility of double entries in written texts.
    
-Tamkde to bylo možné, byla transkripce sjednocována následujícím způsobem+Wherever possiblethe transcription was unified in the following manner
-   *** psaní dohromady:**  slova cizího původu (//nonstop, secondhand//), citátová spojení (//apriori, defacto//), spřežky s možností dvojího zápisu (//bezesporu, načerno, vodmalička//), číslovky s komponentem krát (//čtyřikrát//), substantivizované číslovky (//dvacetdevítka//), spojky (//anebo, abysem//), citoslovce (//bubu, čičí, díkybohu//),  +   *** written together:**  foreign origin words (//nonstop, secondhand//), quoted phrases (//apriori, defacto//), digraphs with two possible spellings (//bezesporu, načerno, vodmalička//), numerals with the component "krát(//čtyřikrát//), substantivized numerals (//dvacetdevítka//), conjuncts (//anebo, abysem//), interjections (//bubu, čičí, díkybohu//),  
-   *** psaní zvlášť**: víceslovné kontaktové výrazy (//no no; prosim tě//), spojky (//i když//), číslovky (//čtyři sta, dvacet dva, dvacátýho devátýho//), víceslovná adverbia (//přece jenom, všude možně//), výrazy s komponentem //(ne)vím// (//nevim kam; nevím co, bůh ví, čert ví//) a spojení předložky a zájmena //na ňho//. +   *** written separately**: multiword contact expressions (//no no; prosim tě//), conjuncts (//i když//), numerals (//čtyři sta, dvacet dva, dvacátýho devátýho//), multiword adverbials (//přece jenom, všude možně//), expressions with a component //(ne)vím// (//nevim kam; nevím co, bůh ví, čert ví//and and phrases with preposition and pronoun //na ňho//. 
-  *** psaní s malým počátečním písmenem**: jména nápojů (//frankovka, mattonka, gambrinus//), značky vozidel (//fabia, fiat, zetor//), internetových vyhledávačů //google, youtube//+  *** written with a lower case first letter**: names of beverages (//frankovka, mattonka, gambrinus//), vehicle brand names (//fabia, fiat, zetor//), internet browsers //google, youtube//
   
-Citlivé osobní údaje jsou v přepisech [[cnk:oral:pravidla#anonymizacni_znacky|kódovány]] podle přání nahrávajících. +Sensitive personal information is encoded in the transcription according to the wishes of the recorded speakersMore detailed information and an overview of the transcription symbols can be found in the [[cnk:oral:pravidla|Transcription]] section (Czech only).
-Podrobnější údaje a přehled transkripčních značek se nachází v oddílu [[cnk:oral:pravidla|Transkripce]].+
  
-===== Zobrazení  ===== +===== View ===== 
-Pro mluvené korpusy byl zároveň implementován novýnázorný způsob zobrazení dialogukterý přehledně ukazuje střídání mluvčíchzachycuje jejich souběžný hovor (pro části ORAL2013 ORAL-Z) a pomocí přezdívky jednoznačně identifikuje mluvčí.+For spoken corpora we have implemented a newgraphic interface for viewing dialogueswhich clearly shows the alternating speakerscaptures their concurrent speech (for the ORAL2013 and ORAL-Z sectionsand distinctly identifies the speaker with the help of the alias.
  
  
-[{{:cnk:oral5_promluvy_kocka.png | Zobrazení promluv a překryvu v dialogu. }}]+[{{:cnk:oral5_promluvy_kocka.png | The depiction of utterances and overlaps in dialogue. }}]
  
  
Line 75: Line 74:
  
 <WRAP round tip 80%> <WRAP round tip 80%>
-Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: //ORAL: korpus neformální mluvené češtiny, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from : http://www.korpus.cz+Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: //ORAL: korpus neformální mluvené češtiny, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from: http://www.korpus.cz
  
 Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (in print). Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (in print).
Line 85: Line 84:
  
 <WRAP round box 72%> <WRAP round box 72%>
-[[en:cnk:oral:pravidla|Transcription in the ORAL corpus]] • [[en:cnk:ortofon|ORTOFON]] • [[en:cnk:oral2006|ORAL2006]] • [[en:cnk:oral2008|ORAL2008]] • [[en:cnk:oral2013|ORAL2013]] • [[en:cnk:dialekt|Dialect]] • [[en:pojmy:mluveny|Spoken language corpus]] • [[en:pojmy:atributy_strukturni#strukturni_atributy_korpusu_rady_oral|ORAL corpus structure]] • [[en:kurz:hledani_v_mluvenych_korpusech|Searching in spoken corpora]] • [[en:kurz:hledani_ORTOFON|Searching in the ORTOFON corpus]]+[[en:cnk:ortofon|ORTOFON]] • [[en:cnk:oral2006|ORAL2006]] • [[en:cnk:oral2008|ORAL2008]] • [[en:cnk:oral2013|ORAL2013]] • [[en:cnk:dialekt|Dialect]]
  </WRAP>  </WRAP>