Both sides previous revisionPrevious revisionNext revision | Previous revisionNext revisionBoth sides next revision |
en:cnk:oral [2017/07/04 18:31] – [Úprava sociolingvistických údajů] veronikapojarova | en:cnk:oral [2017/07/07 10:27] – veronikapojarova |
---|
* education: lower (primary school, high school) and higher (university education - including unfinished) | * education: lower (primary school, high school) and higher (university education - including unfinished) |
| |
==== Úprava segmentace ==== | ==== Modification of segmentation ==== |
* maximální **délka segmentů** u nahrávek spojených se zvukem z části korpusu ORAL2013 je 15 slov, u části ORAL-Z 25 slov (prodlouženo pro lepší poslech příslušného úseku); transkripty bez zvuku jsou členěny na repliky (úsek řeči jednoho mluvčího, než je vystřídán komunikačním partnerem) | * the maximum **segment length** for recordings linked to audio from the ORAL2013 section of the corpus is 15 words, and 25 words for the ORAL-Z section (made longer in order for the given section to be heard better); transcripts without audio are segmented into speaker turns (one speaker's section of speech before he is superseded by his communication partner) |
* **přerušení repliky** druhým mluvčím, po kterém došlo k **navázání** na původní téma, se označuje znaménkem plus ''(+)''; pokud nedošlo k navázání na původní téma, znaménkem minus ''(-)'' | * a **turn which was interrupted** by the second speaker, following which the original topic was **reestablished** is marked with a plus sign ''(+)''; if the original topic was not brought up again, it is marked with a minus sign ''(-)'' |
* **interpunkce** v částech ORAL2013 a ORAL-Z je pauzová; syntaktická interpunkce, užívaná pro korpusy ORAL2006 a ORAL2008, byla změněna následujícím způsobem: čárky byly smazány bez náhrady, tečky byly nahrazeny čárkami | * **punctuation** in the ORAL2013 and ORAL-Z sections is pause-based; syntactic punctuation, used in the ORAL2006 and ORAL2008 corpora, was altered in the following way: commas were deleted with no replacement, full stops were replaced by commas |
==== Úprava transkripce ==== | ==== Modification of transcription ==== |
Transkripce ve spojeném korpusu ORAL zachovává většinu transkripčních zásad platných pro korpusy, v některých případech však došlo k jejich úpravě a sjednocení ((Všechny již publikované korpusy zároveň zůstávají v referenční, neměnné podobě.)). Přepis dat z části ORAL-Z odpovídá v podstatě transkripčním zásadám korpusu {{:cnk:prepisovaci_pravidla_oral2013.pdf|ORAL2013}}. Rozdílnost transkripce je způsobena nejen chybami a změnou pravidel, ale často i možností dubletního zápisu v psaných textech. | Transcription in the joint corpus ORAL retains most of the usual corpus transcription rules. However, in a number of cases they have been modified and unified ((All previously published corpora simultaneously remain in a referential, unaltered form.)). The transcript of sections of the ORAL-Z corpus essentially conforms to the transcription rules of the {{:cnk:prepisovaci_pravidla_oral2013.pdf|ORAL2013}} corpus. The differences of the transcriptions are caused not only by errors and changed rules, but often also by the possibility of double entries in written texts. |
| |
Tam, kde to bylo možné, byla transkripce sjednocována následujícím způsobem: | Wherever possible, the transcription was unified in the following manner: |
*** psaní dohromady:** slova cizího původu (//nonstop, secondhand//), citátová spojení (//apriori, defacto//), spřežky s možností dvojího zápisu (//bezesporu, načerno, vodmalička//), číslovky s komponentem krát (//čtyřikrát//), substantivizované číslovky (//dvacetdevítka//), spojky (//anebo, abysem//), citoslovce (//bubu, čičí, díkybohu//), | *** written together:** foreign origin words (//nonstop, secondhand//), quoted phrases (//apriori, defacto//), digraphs with two possible spellings (//bezesporu, načerno, vodmalička//), numerals with the component "krát" (//čtyřikrát//), substantivized numerals (//dvacetdevítka//), conjuncts (//anebo, abysem//), interjections (//bubu, čičí, díkybohu//), |
*** psaní zvlášť**: víceslovné kontaktové výrazy (//no no; prosim tě//), spojky (//i když//), číslovky (//čtyři sta, dvacet dva, dvacátýho devátýho//), víceslovná adverbia (//přece jenom, všude možně//), výrazy s komponentem //(ne)vím// (//nevim kam; nevím co, bůh ví, čert ví//) a spojení předložky a zájmena //na ňho//. | *** written separately**: multiword contact expressions (//no no; prosim tě//), conjuncts (//i když//), numerals (//čtyři sta, dvacet dva, dvacátýho devátýho//), multiword adverbials (//přece jenom, všude možně//), expressions with a component //(ne)vím// (//nevim kam; nevím co, bůh ví, čert ví//) and and phrases with a preposition and pronoun //na ňho//. |
*** psaní s malým počátečním písmenem**: jména nápojů (//frankovka, mattonka, gambrinus//), značky vozidel (//fabia, fiat, zetor//), internetových vyhledávačů //google, youtube// | *** written with a lower case first letter**: names of beverages (//frankovka, mattonka, gambrinus//), vehicle brand names (//fabia, fiat, zetor//), internet browsers //google, youtube// |
| |
Citlivé osobní údaje jsou v přepisech [[cnk:oral:pravidla#anonymizacni_znacky|kódovány]] podle přání nahrávajících. | Sensitive personal information is [[en:cnk:oral:pravidla#anonymizacni_znacky|encoded]] in the transcription according to the wishes of the recorded speakers. |
Podrobnější údaje a přehled transkripčních značek se nachází v oddílu [[cnk:oral:pravidla|Transkripce]]. | More detailed information and an overview of the transcription symbols can be found in the [[en:cnk:oral:pravidla|Transcription]] section. |
| |
===== Zobrazení ===== | ===== View ===== |
Pro mluvené korpusy byl zároveň implementován nový, názorný způsob zobrazení dialogu, který přehledně ukazuje střídání mluvčích, zachycuje jejich souběžný hovor (pro části ORAL2013 a ORAL-Z) a pomocí přezdívky jednoznačně identifikuje mluvčí. | For spoken corpora we have implemented a new, graphic interface for viewing dialogues, which clearly shows the alternating speakers, captures their concurrent speech (for the ORAL2013 and ORAL-Z sections) and distinctly identifies the speaker with the help of the alias. |
| |
| |
[{{:cnk:oral5_promluvy_kocka.png | Zobrazení promluv a překryvu v dialogu. }}] | [{{:cnk:oral5_promluvy_kocka.png | The depiction of utterances and overlaps in dialogue. }}] |
| |
| |
| |
<WRAP round tip 80%> | <WRAP round tip 80%> |
Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: //ORAL: korpus neformální mluvené češtiny, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from : http://www.korpus.cz | Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. - Waclawičová, M. - Benešová, L. – Křen, M.: //ORAL: korpus neformální mluvené češtiny, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from: http://www.korpus.cz |
| |
Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (in print). | Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P.: Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In //Korpus - Gramatika - Axiologie// 2017 (in print). |