Toto je starší verze dokumentu!
Morfio
Aplikace Morfio slouží k odhadování rozsahu a produktivity slovotvorných modelů v češtině na základě korpusových dat. Jedná se tak o pomůcku, která je využitelná zejména pro slovotvorný výzkum, zejména v oblasti derivace.
Morfio je webová aplikace dostupná bez registrace na adrese morfio.korpus.cz. Součástí aplikace je podrobná nápověda a popis zobrazených výsledků. Stejně jako v jiných aplikacích (např. SyD), je i v rámci SyDu k dispozici permanentní odkaz, který vede k položenému zadání.
Princip
Obecně je každý slovotvorný vztah – vedle složky sémantické, kterou lze jen obtížně automaticky uchopit – vytvářen
- formální shodou/podobností v určitých částech slova, tzv. báze (např. dřev- je část společná pro slova dřevo i dřevěný)
- formálními odlišnostmi v částech specifických, tzv. formantech (morfy -o a -ěný v předchozím příkladu).
Cílem aplikace Morfio je najít všechny dvojice, resp. trojice nebo čtveřice, jednotek v korpusu, které se shodují v bázi a liší se pouze specifikovanými formanty (a příp. i vymezenými hláskovými alternacemi).
Výše uvedený příklad slovotvorného modelu tak odpovídá dvojicím slov, kde první z nich je substantivum končící v nom. sg. na -o a druhé slovo je adjektivum končící v nom. sg. masc. na -ený nebo -ěný. Ve výsledcích nacházíme dvojice lemmat (příp. slovních tvarů, záleží na vstupním nastavení), které zadané podmínce po formální stránce odpovídají:
dřevo - dřevěný,
olovo - olověný,
síto - sítěný
Zároveň zde ale najdeme také příklady, u nichž žádnou slovotvornou motivaci nenajdeme:
milo - milený,
živo - živený,
dělo - dělený
Na rozdíl od běžně užívaného přístupu onomaziologického (význam → forma) se při vytěžování korpusu, který není sémanticky označkován, musí vycházet od formy (přístup semaziologický). To samozřejmě může přinášet problémy (např. v případě homonymie), jejichž řešení přesahuje možnosti takto koncipovaného nástroje.
Výstupem aplikace Morfio tak není a nemůže být bezchybný a bez jakýchkoli úprav, revize a lingvistické manipulace publikovatelný výstup, spíš se jedná o pomůcku, která množství dat dokáže pro lingvistické účely předzpracovat tak, aby analýza byla rychlejší, výtěžnější a celkově pro badatele jednodušší. Stejně jako u jiných korpusových vyhledávačů je tedy cílem pouze snadné dosažení 100% úspěšnosti hledání daného typu (recall) a přehledné setřídění výsledků, zatímco jejich relevantnost (precision) je zcela ponechána na úsudku uživatele: tj. samotné formulaci dotazu a následném vyhodnocení nálezů.