This is an old revision of the document!
Table of Contents
Morfio
The Morfio application serves to give estimates of the extent and productivity of morphological models in Czech based on corpus data. It is therefore a tools which can be used in morphological research, especially for the study of derivation.
Morfio is an online application and is accessible without registration to all users at kwords.korpus.cz.
The application includes a detailed manual and description of displayed results. Just like in other applications (e.g. SyD), Morfio provides a permanent link leading to the input query, which is therefore appropriate for sharing and citing.
Principle
Generally every morphological relation – excluding the semantic component, which cannot be easily grasped computationally – is created by two other factors:
- a formal congurence/similarity in particular parts of the word, so-called bases (e.g. dřev- is held in common by the words dřevo and dřevěný)
- formal differences in specific parts, so-called formants (morphs -o and -ěný from the previous example).
Cílem aplikace Morfio je najít všechny dvojice, resp. trojice nebo čtveřice, jednotek v korpusu, které mají shodnou bázi a liší se pouze specifikovanými formanty (a příp. i vymezenými hláskovými alternacemi).
Výše uvedený příklad slovotvorného modelu tak odpovídá dvojicím slov, kde první z nich je substantivum končící v nom. sg. na -o a druhé slovo je adjektivum končící v nom. sg. masc. na -ený nebo -ěný. Báze obou slov zůstává nespecifikovaná, nicméně musí platit, že je v obou slovech stejná. Ve výsledcích nacházíme dvojice lemmat (příp. slovních tvarů, záleží na vstupním nastavení), které zadané podmínce po formální i významové stránce odpovídají:
dřevo - dřevěný,
olovo - olověný,
síto - sítěný
Zároveň zde ale najdeme také příklady, u nichž žádnou slovotvornou motivaci identifikovat nelze:
milo - milený,
živo - živený,
dělo - dělený
Na rozdíl od běžně užívaného přístupu onomaziologického (význam → forma) se při vytěžování korpusu, který není sémanticky označkován, musí vycházet od formy (přístup semaziologický). To samozřejmě může přinášet problémy (např. v případě homonymie), jejichž řešení přesahuje možnosti takto koncipovaného nástroje a vyžaduje ruční analýzu prováděnou jazykovědcem.
Výstupem aplikace Morfio není a nemůže být bezchybný a bez jakýchkoli dalších úprav, revize a lingvistické manipulace publikovatelný výstup, spíš se jedná o pomůcku, která množství dat dokáže pro lingvistické účely předzpracovat tak, aby analýza byla rychlejší, výtěžnější a celkově pro badatele jednodušší. Stejně jako u jiných korpusových vyhledávačů je tedy cílem pouze snadné dosažení 100% úspěšnosti hledání daného typu (recall) a přehledné setřídění výsledků, zatímco jejich relevantnost (precision) je zcela ponechána na úsudku uživatele: tj. samotné formulaci dotazu a následném vyhodnocení nálezů.
Alternace
Vyžadovat přesnou formální shodu mezi jednotlivými členy slovotvorného modelu by bylo v jazyce, jako je čeština, nepraktické. V rámci slovotvorných procesů dochází totiž často k pravidelným změnám hlásek v bázi, k tzv. alternacím. Aplikace Morfio s alternacemi počítá a jejich rozsah je možné nastavit (např. jde o tyto záměny e – é: letět – létat; i – e: prosit – prošen; r – ř: starý – stařec; sk – šť: český – čeština apod.).
Obrázky aplikace
Related links
KonText interface • SyD • KWords • Treq • Corpus manager • Corpus tools