====== Anonymizace dat ====== Anonymizace je odstranění osobních údajů z korpusových dat. Týká se především [[cnk:struktura#korpusy_mluvene|korpusů mluveného jazyka]], ve kterých jsou osobní data ze zvukového záznamu odstraněna a v přepise jsou dohodnutým způsobem kódována. Jedná se především o příjmení, přezdívky, místní jména, adresy, telefonní čísla a podobně. Kódování v přepise může být buď formou číselného či písmenného kódu, nebo zde může být použito „univerzální“ příjmení, místní jméno apod. Tento druhý způsob je výhodný pro následnou [[pojmy:morfologicka_analyza|morfologickou analýzu]], protože zachovává gramatické kategorie původního jména. V mluvených korpusech řady [[pojmy:mluveny#ceske_korpusy_mluveneho_jazyka|ORAL]] se používají pro anonymizaci následující značky: * NP = příjmení * NN = přezdívka * NJ = křestní jméno * NM = název místa * NO = ostatní vlastní jména ===== Ukázka z korpusu ORAL2008 ===== Dotaz, kterým najdeme všechny anonymizační značky v tomto korpusu, má tuto podobu: ''[word="N[PNJMO]"]'' a jeho výsledkem jsou např. tyto věty: | byli v hospodě s tima , s bohemistama , jak | NJ | s nima vždycky chodí . . . hmm . . . a to | | náš pes je fakt dobytek . hele , počkej , | NN | , tak teda jak zejtra ? to já nevim eště | | tak sme šli chrápat , ty vole , a | NN | eště hrozně řešil : " no , ty vole | | sou příjemný náhodou . sou . vopravdu jo . Jana | NP | je má v modrym . nó . na ty sem | | jít na sociálku . ale volala , že jedou z | NM | , jesli sem doma , že za chvíli sou tam | --- //M. Kopřivová, V. Cvrček// ==== Související odkazy ==== [[cnk:struktura#korpusy_mluvene|Korpusy mluvené češtiny]] • [[pojmy:anotace|Anotace korpusů]] • [[cnk:oral2006|ORAL2006]] • [[cnk:oral2008|ORAL2008]] • [[cnk:bmk|BMK]] • [[cnk:pmk|PMK]]