Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verze | Poslední revizeObě strany příští revize |
pojmy:anonymizace [2013/11/10 18:26] – [Anonymizace dat] lukasjanicik | pojmy:anonymizace [2013/11/10 18:33] – [Anonymizace dat] lukasjanicik |
---|
====== Anonymizace dat ====== | ====== Anonymizace dat ====== |
| |
Anonymizace je odstranění osobních údajů z korpusových dat. Týká se především [[cnk:struktura#korpusy_mluvene|korpusů mluveného jazyka]], ve kterých jsou osobní data ze zvukového záznamu odstraněna a v přepise jsou dohodnutým způsobem kódována. Jedná se především o příjmení, přezdívky, místní jména, adresy, telefonní čísla a podobně. Kódování v přepise může být buď formou číselného či písmenného kódu, nebo zde může být použito „univerzální“ příjmení, místní jméno apod. Tento druhý způsob je výhodný pro následnou morfologickou analýzu, protože zachovává gramatické kategorie původního jména. | Anonymizace je odstranění osobních údajů z korpusových dat. Týká se především [[cnk:struktura#korpusy_mluvene|korpusů mluveného jazyka]], ve kterých jsou osobní data ze zvukového záznamu odstraněna a v přepise jsou dohodnutým způsobem kódována. Jedná se především o příjmení, přezdívky, místní jména, adresy, telefonní čísla a podobně. Kódování v přepise může být buď formou číselného či písmenného kódu, nebo zde může být použito „univerzální“ příjmení, místní jméno apod. Tento druhý způsob je výhodný pro následnou [[pojmy:morfologicka_analyza|morfologickou analýzu]], protože zachovává gramatické kategorie původního jména. |
| |
V mluvených korpusech řady ORAL se používají pro anonymizaci následující značky: | V mluvených korpusech řady [[pojmy:mluveny#ceske_korpusy_mluveneho_jazyka|ORAL]] se používají pro anonymizaci následující značky: |
* NP = příjmení | * NP = příjmení |
* NN = přezdívka | * NN = přezdívka |