This is an old revision of the document!
Table of Contents
Morfio
Aplikace Morfio slouží k odhadování rozsahu a produktivity slovotvorných modelů v češtině na základě korpusových dat. Jedná se tak o pomůcku, která je využitelná zejména pro slovotvorný výzkum, zejména v oblasti derivace (odvozování).
Morfio is an online application and is accessible without registration to all users at kwords.korpus.cz.
Součástí aplikace je podrobná nápověda a popis zobrazených výsledků. Stejně jako v jiných aplikacích (např. SyD), je i v rámci Morfia k dispozici permanentní odkaz, který vede k položenému zadání, a je tak vhodný ke sdílení a citování.
Princip
Obecně je každý slovotvorný vztah – vedle složky sémantické, kterou lze jen obtížně automaticky uchopit – vytvářen dalšími dvěma faktory:
- formální shodou/podobností v určitých částech slova, tzv. báze (např. dřev- je část společná pro slova dřevo i dřevěný)
- formálními odlišnostmi v částech specifických, tzv. formantech (morfy -o a -ěný v předchozím příkladu).
Cílem aplikace Morfio je najít všechny dvojice, resp. trojice nebo čtveřice, jednotek v korpusu, které mají shodnou bázi a liší se pouze specifikovanými formanty (a příp. i vymezenými hláskovými alternacemi).
Výše uvedený příklad slovotvorného modelu tak odpovídá dvojicím slov, kde první z nich je substantivum končící v nom. sg. na -o a druhé slovo je adjektivum končící v nom. sg. masc. na -ený nebo -ěný. Báze obou slov zůstává nespecifikovaná, nicméně musí platit, že je v obou slovech stejná. Ve výsledcích nacházíme dvojice lemmat (příp. slovních tvarů, záleží na vstupním nastavení), které zadané podmínce po formální i významové stránce odpovídají:
dřevo - dřevěný,
olovo - olověný,
síto - sítěný
Zároveň zde ale najdeme také příklady, u nichž žádnou slovotvornou motivaci identifikovat nelze:
milo - milený,
živo - živený,
dělo - dělený
Na rozdíl od běžně užívaného přístupu onomaziologického (význam → forma) se při vytěžování korpusu, který není sémanticky označkován, musí vycházet od formy (přístup semaziologický). To samozřejmě může přinášet problémy (např. v případě homonymie), jejichž řešení přesahuje možnosti takto koncipovaného nástroje a vyžaduje ruční analýzu prováděnou jazykovědcem.
Výstupem aplikace Morfio není a nemůže být bezchybný a bez jakýchkoli dalších úprav, revize a lingvistické manipulace publikovatelný výstup, spíš se jedná o pomůcku, která množství dat dokáže pro lingvistické účely předzpracovat tak, aby analýza byla rychlejší, výtěžnější a celkově pro badatele jednodušší. Stejně jako u jiných korpusových vyhledávačů je tedy cílem pouze snadné dosažení 100% úspěšnosti hledání daného typu (recall) a přehledné setřídění výsledků, zatímco jejich relevantnost (precision) je zcela ponechána na úsudku uživatele: tj. samotné formulaci dotazu a následném vyhodnocení nálezů.
Alternace
Vyžadovat přesnou formální shodu mezi jednotlivými členy slovotvorného modelu by bylo v jazyce, jako je čeština, nepraktické. V rámci slovotvorných procesů dochází totiž často k pravidelným změnám hlásek v bázi, k tzv. alternacím. Aplikace Morfio s alternacemi počítá a jejich rozsah je možné nastavit (např. jde o tyto záměny e – é: letět – létat; i – e: prosit – prošen; r – ř: starý – stařec; sk – šť: český – čeština apod.).
Obrázky aplikace
Related links
KonText interface • SyD • KWords • Treq • Corpus manager • Corpus tools