====== Anonymizace dat ======
Anonymizace je odstranění osobních údajů z korpusových dat. Týká se především [[cnk:struktura#korpusy_mluvene|korpusů mluveného jazyka]], ve kterých jsou osobní data ze zvukového záznamu odstraněna a v přepise jsou dohodnutým způsobem kódována. Jedná se především o příjmení, přezdívky, místní jména, adresy, telefonní čísla a podobně. Kódování v přepise může být buď formou číselného či písmenného kódu, nebo zde může být použito „univerzální“ příjmení, místní jméno apod. Tento druhý způsob je výhodný pro následnou [[pojmy:morfologicka_analyza|morfologickou analýzu]], protože zachovává gramatické kategorie původního jména.
V mluvených korpusech řady [[pojmy:mluveny#ceske_korpusy_mluveneho_jazyka|ORAL]] se používají pro anonymizaci následující značky:
* NP = příjmení
* NN = přezdívka
* NJ = křestní jméno
* NM = název místa
* NO = ostatní vlastní jména
===== Ukázka z korpusu ORAL2008 =====
Dotaz, kterým najdeme všechny anonymizační značky v tomto korpusu, má tuto podobu: ''[word="N[PNJMO]"]'' a jeho výsledkem jsou např. tyto věty:
| byli v hospodě s tima , s bohemistama , jak | NJ | s nima vždycky chodí . . . hmm . . . a to |
| náš pes je fakt dobytek . hele , počkej , | NN | , tak teda jak zejtra ? to já nevim eště |
| tak sme šli chrápat , ty vole , a | NN | eště hrozně řešil : " no , ty vole |
| sou příjemný náhodou . sou . vopravdu jo . Jana | NP | je má v modrym . nó . na ty sem |
| jít na sociálku . ale volala , že jedou z | NM | , jesli sem doma , že za chvíli sou tam |
--- //M. Kopřivová, V. Cvrček//
==== Související odkazy ====
[[cnk:struktura#korpusy_mluvene|Korpusy mluvené češtiny]] • [[pojmy:anotace|Anotace korpusů]] • [[cnk:oral2006|ORAL2006]] • [[cnk:oral2008|ORAL2008]] • [[cnk:bmk|BMK]] • [[cnk:pmk|PMK]]