Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
en:cnk:lemtag_mluv [2017/07/07 10:25] – veronikapojarova | en:cnk:lemtag_mluv [2017/07/18 15:12] (current) – [Lemmatization and tagging in spoken corpora] michalkren | ||
---|---|---|---|
Line 10: | Line 10: | ||
**Concept of lemma** | **Concept of lemma** | ||
- | Pojetí lemmatu je širší, než je tomu u psaného jazyka. Prioritou je možnost vyhledat všechny tvary určitého slova, které mohou být zaznamenány s redukovanou výslovností, ale i nářeční tvary, jež by mohly mít samostatné | + | The concept of lemma is broader than in written language. The main priority is to be able to find all forms of a given words, which can be recorded with reduced pronunciation, but also dialectal forms, which could have a separate |
**Tagging method** | **Tagging method** | ||
- | [[seznamy: | + | [[seznamy: |
- | ===== Úpravy morfologického slovníku ===== | + | |
- | Výchozí morfologický slovník MorfFlex CZ (Hajič–Hlaváčová, | + | ===== Modifications to the morphological dictionary ===== |
- | Příklady některých úprav: | + | |
- | **Poloautomatické** doplňování: | + | The original morphological dictionary MorfFlex CZ (Hajič–Hlaváčová, 2013) was manually and semiautomatically supplemented, edited, and selected interpretations of grammatical categories were omitted with regard to the target register |
- | * **nářeční koncovky** jako např. u ak. sg. fem. zakončení na -u (//nedělu, chvilu//), slovesné tvary minulého aktivního příčeští (//dělale, chodile// | + | Examples of some modifications: |
- | * varianty lišící se **kvantitou samohlásek** | + | |
- | * " | + | |
- | **Manuální doplňování**: | + | **Semiautomatic additions**: |
- | * přiřazení a sjednocení | + | * **dialectal suffixes** such as the acc. sg. fem. ending with -u (//nedělu, chvilu//), verbal forms of the past active participle (//dělale, chodile//) |
- | * přiřazení | + | * variants differing in **vowel quantity** (//myslim, vim, makem, polivka//), **palatalization** (//tydeň//), **the presence of a prothetic v-** (// |
+ | * " | ||
+ | **Manual additions**: | ||
+ | * assigning and merging **pronunciation variants** (e.g. //třeba, čovek, depák; dokavád, dovaď, dovad//) into one single lemma | ||
+ | * assigning **dialectal forms** (//dňama, Davidoj, ňou//) to a standard lemma | ||
- | **Odstranění některých interpretací**: | ||
- | * odstranění interpretace výrazu jako adverbium: //prostě// | ||
- | * odstranění interpretace výrazu jako imperativ: //viď// | ||
- | * odstranění interpretace výrazu jako vokativ: //pote// (redukovaná výslovnost // | ||
- | **Doplnění některých interpretací** | + | **Removal of selected interpretations**: |
- | * přidání kategorie částice: //jen// (původně pouze adverbium) | + | * removal of the expression' |
- | * změna interpretace: //puč// neoznačujeme jako substantivum, | + | * removal of the expression' |
- | ===== Podoba lemmatu ===== | + | * removal of the expression' |
- | | + | **Addition of selected interpretations** |
- | * slova s** dvojí spisovnou podobou** mají vícenásobné lemma (//polívka/polévka//) | + | * addition of the particle category: |
- | * slova, u nichž **nelze jednoznačně přiřadit jednotlivé tvary**, mají také vícenásobné lemma (// | + | * new interpretation: //puč// is no longer a noun, but the imperative of the verb //půjčit// with reduced pronunciation |
- | * **zkratky** mají vícenásobné lemma: //SMS/esemeska, endéer/NDR// | + | ===== Lemma forms ===== |
- | Vícenásobné | + | * most words have a lemma in the form of a **standard lemma**, i.e. the same as in written language, even in cases where the regional form has a higher frequency (e.g. the lemma **// |
+ | * words with a **dual standard form** have a multiple lemma (// | ||
+ | * words which **can not be unambiguously assigned one specific form**, also have a multiple lemma (// | ||
+ | * **abbreviations** have a multiple lemma: // | ||
+ | |||
+ | The multiple lemma functions as a multi-value, | ||
===== Tag forms===== | ===== Tag forms===== | ||
- | The form of the tags corresponds to that of the [[en:seznamy: | + | The form of the tags corresponds to that of the [[seznamy: |
Apart from these tags, the first position for the word class and the POS attribute can have the following values: | Apart from these tags, the first position for the word class and the POS attribute can have the following values: | ||
Line 58: | Line 59: | ||
===== Acknowledgements ===== | ===== Acknowledgements ===== | ||
- | We would like to thank doc. Klára Osolsobě and Mgr. Dana Hlaváčková, Ph.D. for providing valuable | + | We would like to thank doc. Klára Osolsobě and Dr. Dana Hlaváčková for providing valuable |
===== Sources ===== | ===== Sources ===== | ||
Line 72: | Line 73: | ||
<WRAP round box 72%> | <WRAP round box 72%> | ||
- | [[en: | + | [[en: |
</ | </ |