Toto je starší verze dokumentu!
Precision a recall
Oba pojmy - precision i recall - jsou původně převzaty z informatiky a je možné je přeložit jako přesnost a výtěžnost pokrytí zkoumaných dat daným přístupem. Využívají se zejména při hodnocení úspěšnosti automatických nástrojů na analýzu textu (např. taggerů).
Precision
Míra precision je definována jako procentuální poměr relevantních výsledků analýzy ke všem výsledkům analýzou získaným.
Recall
Na rozdíl od precision je recall poměr relevantních výsledků analýzy ke všem relevantním výskytům ve zkoumaném vzorku bez ohledu na to, zda byly analýzou identifikovány.
Příklad
Pokud bychom se např. snažili v korpusu vyhledat všechny výskyty slov patřících k paradigmatu stavení pouze pomocí dotazu, který nachází pouze tvary končící na -í, bez jakékoliv další specifikace, byla by míra precision snížena (z maximálních 100 %) tím, že by se ve výsledku objevovaly i formy z jiných paradigmat (paní, mladí, trpí apod.). Míra recall by byla nižší (než maximálních 100 %) v důsledku absence tvarů stavením, náměstími apod., které dotaz nepodchytil, avšak do výsledku měly být podle zadání započítány.
Celkový objem dat, s nimiž pracujeme při analýze, můžeme rozdělit do čtyř skupin:
- případy, které nás zajímají a pomocí dané metody se nám skutečně podařilo je vyfiltrovat (relevantní výsledky; angl. tzv. true positives, TP - správná zařazení do výsledků)
- případy, které nás sice nezajímají, ale naše metoda (jsouc nedokonalá) je vyfiltrovala taky (false positives, FP - nesprávná zařazení)
- případy, které nás sice zajímají, ale naší metodě unikly (false negatives, FN - nesprávná vynechání)
- případy, které nás nezajímají a metoda je z výsledků správně vyloučila (true negatives, TN - správná vynechání)
Počet všech výsledků získaných analýzou je dán součtem N_získáno = TP + FP (veškeré případy, které metoda za relevantní označila); počet výsledků, které bychom ideálně chtěli získat, je dán součtem N_zamýšleno = TP + FN (veškeré případy, které bez ohledu na nedokonalou metodu relevantní reálně jsou).
Předpokládejme, že dotaz hledající tvary končící na -í roztřídí (nerealisticky malý) korpus o 1000 tokenů do čtyř výše zmíněných skupin následovně:
relevantní tokeny | nerelevantní tokeny | |
---|---|---|
tokeny zařazené do výsledků | 45 (TP) | 55 (FP) |
tokeny do výsledků nezařazené | 5 (FN) | 895 (TN) |
Z hlediska našeho záměru, kterým bylo najít všechna slova náležející k paradigmatu stavení, má naše metoda následující parametry:
- precision = TP / N_získáno = TP / (TP + FP) = 45 / (45 + 55) = 45 %
- recall = TP / N_zamýšleno = TP / (TP + FN) = 45 / (45 + 5) = 90 %
Můžeme učinit závěr, že se nám zvolenou metodou podařilo z korpusu vyvolat vysoké procento celkově dostupných výskytů sledovaného jevu (recall je 90 %), ale zároveň jsme je pomíchali v podstatě půl na půl s případy, které nás nezajímají (precision je jen 45 %).