Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
pojmy:precision [2013/06/18 18:01] – vaclavcvrcek | pojmy:precision [2014/11/24 12:52] (aktuální) – vaclavcvrcek | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
====== Precision a recall ====== | ====== Precision a recall ====== | ||
- | Oba pojmy - precision i recall - jsou původně převzaty z informatiky a je možné je přeložit jako **přesnost** a **výtěžnost** pokrytí zkoumaných dat daným přístupem. Využívají se zejména při hodnocení úspěšnosti automatických nástrojů na analýzu textu (např. [[pojmy: | + | Oba pojmy - //precision// i //recall// - jsou původně převzaty z informatiky a je možné je přeložit jako **přesnost** a **výtěžnost** pokrytí zkoumaných dat daným přístupem. Využívají se zejména při hodnocení úspěšnosti automatických nástrojů na analýzu textu (např. [[pojmy: |
===== Precision ===== | ===== Precision ===== | ||
Řádek 9: | Řádek 9: | ||
===== Recall ===== | ===== Recall ===== | ||
- | Narozdíl | + | Na rozdíl |
- | ==== Příklady | + | ==== Příklad |
- | Pokud bychom se např. snažili v korpusu vyhledat všechny výskyty slov patřících k paradigmatu // | + | Pokud bychom se např. snažili v korpusu vyhledat všechny výskyty slov patřících k paradigmatu // |
+ | Celkový objem dat, s nimiž pracujeme při analýze, můžeme rozdělit do čtyř skupin: | ||
+ | - případy, které nás zajímají a pomocí dané metody se nám skutečně podařilo je vyfiltrovat (relevantní výsledky; angl. tzv. //true positives//, | ||
+ | - případy, které nás sice nezajímají, | ||
+ | - případy, které nás sice zajímají, ale naší metodě unikly (//false negatives//, | ||
+ | - případy, které nás nezajímají a metoda je z výsledků správně vyloučila (//true negatives//, | ||
+ | Počet všech výsledků získaných analýzou je dán součtem **N_získáno = TP + FP** (veškeré případy, které metoda za relevantní // | ||
+ | |||
+ | Předpokládejme, | ||
+ | |||
+ | ^ ^ relevantní tokeny ^ nerelevantní tokeny ^ | ||
+ | ^ tokeny zařazené do výsledků | 45 (TP) | 55 (FP) | | ||
+ | ^ tokeny do výsledků nezařazené | 5 (FN) | 895 (TN) | | ||
+ | |||
+ | Z hlediska našeho záměru, kterým bylo najít všechna slova náležející k paradigmatu // | ||
+ | * // | ||
+ | * //recall// = TP / N_zamýšleno = TP / (TP + FN) = 45 / (45 + 5) = 90 % | ||
+ | |||
+ | Můžeme učinit závěr, že se nám zvolenou metodou podařilo z korpusu vyvolat vysoké procento celkově dostupných výskytů sledovaného jevu (//recall// je 90 %), ale zároveň jsme je pomíchali v podstatě půl na půl s případy, které nás nezajímají (// | ||
+ | |||
+ | ==== Související odkazy ==== | ||
+ | |||
+ | <WRAP round box 50%> | ||
+ | [[pojmy: | ||
+ | </ |