Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:precision [2013/08/22 14:27]
alzbetavitkova
pojmy:precision [2014/11/24 12:52] (aktuální)
Václav Cvrček
Řádek 9: Řádek 9:
 ===== Recall ===== ===== Recall =====
  
-Na rozdíl od precision je recall poměr relevantních výsledků analýzy ke všem relevantním výsledkům ve zkoumaném vzorku bez ohledu na to, zda byly analýzou identifikovány.+Na rozdíl od precision je recall poměr relevantních výsledků analýzy ke všem relevantním výskytům ve zkoumaném vzorku bez ohledu na to, zda byly analýzou identifikovány.
  
-==== Příklady ====+==== Příklad ====
  
 Pokud bychom se např. snažili v korpusu vyhledat všechny výskyty slov patřících k paradigmatu //stavení// pouze pomocí dotazu, který nachází pouze tvary končící na //-í//, bez jakékoliv další specifikace, byla by míra precision snížena (z maximálních 100 %) tím, že by se ve výsledku objevovaly i formy z jiných paradigmat (//paní, mladí, trpí// apod.). Míra recall by byla nižší (než maximálních 100 %) v důsledku absence tvarů //stavením, náměstími// apod., které dotaz nepodchytil, avšak do výsledku měly být podle zadání započítány.  Pokud bychom se např. snažili v korpusu vyhledat všechny výskyty slov patřících k paradigmatu //stavení// pouze pomocí dotazu, který nachází pouze tvary končící na //-í//, bez jakékoliv další specifikace, byla by míra precision snížena (z maximálních 100 %) tím, že by se ve výsledku objevovaly i formy z jiných paradigmat (//paní, mladí, trpí// apod.). Míra recall by byla nižší (než maximálních 100 %) v důsledku absence tvarů //stavením, náměstími// apod., které dotaz nepodchytil, avšak do výsledku měly být podle zadání započítány. 
  
 +Celkový objem dat, s nimiž pracujeme při analýze, můžeme rozdělit do čtyř skupin:
 +  - případy, které nás zajímají a pomocí dané metody se nám skutečně podařilo je vyfiltrovat (relevantní výsledky; angl. tzv. //true positives//, **TP** - správná zařazení do výsledků)
 +  - případy, které nás sice nezajímají, ale naše metoda (jsouc nedokonalá) je vyfiltrovala taky (//false positives//, **FP** - nesprávná zařazení)
 +  - případy, které nás sice zajímají, ale naší metodě unikly (//false negatives//, **FN** - nesprávná vynechání)
 +  - případy, které nás nezajímají a metoda je z výsledků správně vyloučila (//true negatives//, **TN** - správná vynechání) 
 +Počet všech výsledků získaných analýzou je dán součtem **N_získáno = TP + FP** (veškeré případy, které metoda za relevantní //označila//); počet výsledků, které bychom ideálně chtěli získat, je dán součtem **N_zamýšleno = TP + FN** (veškeré případy, které bez ohledu na nedokonalou metodu relevantní //reálně jsou//).
 +
 +Předpokládejme, že dotaz hledající tvary končící na //-í// roztřídí (nerealisticky malý) korpus o 1000 [[pojmy:token|tokenů]] do čtyř výše zmíněných skupin následovně:
 +
 +^ ^ relevantní tokeny ^ nerelevantní tokeny ^
 +^ tokeny zařazené do výsledků | 45 (TP) | 55 (FP) |
 +^ tokeny do výsledků nezařazené | 5 (FN) | 895 (TN) |
 +
 +Z hlediska našeho záměru, kterým bylo najít všechna slova náležející k paradigmatu //stavení//, má naše metoda následující parametry:
 +  * //precision// = TP / N_získáno = TP / (TP + FP) = 45 / (45 + 55) = 45 %
 +  * //recall// = TP / N_zamýšleno = TP / (TP + FN) = 45 / (45 + 5) = 90 %
 +
 +Můžeme učinit závěr, že se nám zvolenou metodou podařilo z korpusu vyvolat vysoké procento celkově dostupných výskytů sledovaného jevu (//recall// je 90 %), ale zároveň jsme je pomíchali v podstatě půl na půl s případy, které nás nezajímají (//precision// je jen 45 %).
 +
 +==== Související odkazy ====
 +
 +<WRAP round box 50%>
 +[[pojmy:desambiguace|Desambiguace]] • [[pojmy:parser|Parsing]] • [[pojmy:tag|Tagování]]
 +</WRAP>