Toto je starší verze dokumentu!

Anonymizace dat

Anonymizace je odstranění osobních údajů z korpusových dat. Týká se především korpusů mluveného jazyka, ve kterých jsou osobní data ze zvukového záznamu odstraněna a v přepise jsou dohodnutým způsobem kódována. Jedná se především o příjmení, přezdívky, místní jména, adresy, telefonní čísla a podobně. Kódování v přepise může být buď formou číselného či písmenného kódu nebo zde může být použito „univerzální“ příjmení, místní jméno apod. Tento druhý způsob je výhodný pro následnou morfologickou analýzu, protože zachovává gramatické kategorie původního jména.

V mluvených korpusech řady Oral se používají pro anonymizaci následující značky:

NP = příjmení
NN = přezdívka
NJ = křestní jméno
NM = název místa
NO = ostatní vlastní jména

Ukázka z korpusu Oral2008

Dotaz, kterým najdeme všechny anonymizační značky v tomto korpusu, má tuto podobu: [word=„N[PNJMO]“] a jeho výsledkem jsou např. tyto věty:

<latex> \begin{tabular}{rcl} byli v hospodě s tima , s bohemistama , jak & NJ & s nima vždycky chodí \dots hmm . \dots a to
náš pes je fakt dobytek . hele , počkej , & NN & , tak teda jak zejtra ? to já nevim eště
tak sme šli chrápat , ty vole , a & NN & eště hrozně řešil : „ no , ty vole
sou příjemný náhodou . sou . vopravdu jo . Jana & NP & je má v modrym . nó . na ty sem
jít na sociálku . ale volala , že jedou z & NM & , jesli sem doma , že za chvíli sou tam
\end{tabular} </latex>

— M. Kopřivová, V. Cvrček

Historie: • anonymizace

Anonymizace dat

Ukázka z korpusu Oral2008

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence