Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
pojmy:anonymizace [2013/07/19 17:06]
janpokusny
pojmy:anonymizace [2014/11/24 11:46] (aktuální)
Václav Cvrček
Řádek 1: Řádek 1:
 ====== Anonymizace dat ====== ====== Anonymizace dat ======
  
-Anonymizace je odstranění osobních údajů z korpusových dat. Týká se především [[cnk:struktura|korpusů mluveného jazyka]], ve kterých jsou osobní data ze zvukového záznamu odstraněna a v přepise jsou dohodnutým způsobem kódována. Jedná se především o příjmení, přezdívky, místní jména, adresy, telefonní čísla a podobně. Kódování v přepise může být buď formou číselného či písmenného kódu nebo zde může být použito „univerzální“ příjmení, místní jméno apod. Tento druhý způsob je výhodný pro následnou morfologickou analýzu, protože zachovává gramatické kategorie původního jména.+Anonymizace je odstranění osobních údajů z korpusových dat. Týká se především [[cnk:struktura#korpusy_mluvene|korpusů mluveného jazyka]], ve kterých jsou osobní data ze zvukového záznamu odstraněna a v přepise jsou dohodnutým způsobem kódována. Jedná se především o příjmení, přezdívky, místní jména, adresy, telefonní čísla a podobně. Kódování v přepise může být buď formou číselného či písmenného kódunebo zde může být použito „univerzální“ příjmení, místní jméno apod. Tento druhý způsob je výhodný pro následnou [[pojmy:morfologicka_analyza|morfologickou analýzu]], protože zachovává gramatické kategorie původního jména.
  
-V mluvených korpusech řady Oral se používají pro anonymizaci následující značky:+V mluvených korpusech řady [[pojmy:mluveny#ceske_korpusy_mluveneho_jazyka|ORAL]] se používají pro anonymizaci následující značky:
   * NP = příjmení   * NP = příjmení
   * NN = přezdívka   * NN = přezdívka
Řádek 9: Řádek 9:
   * NM = název místa   * NM = název místa
   * NO = ostatní vlastní jména   * NO = ostatní vlastní jména
 +===== Ukázka z korpusu ORAL2008 =====
  
-===== Ukázka z korpusu Oral2008 =====+Dotaz, kterým najdeme všechny anonymizační značky v tomto korpusu, má tuto podobu: ''[word=<nowiki>"</nowiki>N[PNJMO]<nowiki>"</nowiki>]'' a jeho výsledkem jsou např. tyto věty:
  
-Dotaz, kterým najdeme všechny anonymizační značky v tomto korpusu, má tuto podobu: ''[word="N[PNJMO]"]'' a jeho [[https://www.korpus.cz/corpora/run.cgi/first?reload=&corpname=oral2008&queryselector=cqlrow&iquery=&phrase=&word=&char=&cql=%5Bword%3D%22N%5BPNJMO%5D%22%5D&default_attr=word&fc_lemword_window_type=both&fc_lemword_wsize=5&fc_lemword=&fc_lemword_type=all|výsledkem]] jsou např. tyto věty: + byli v hospodě s tima , s bohemistama , jak |  <fc #FF0000>NJ</fc> s nima vždycky chodí . . . hmm . . . a to  | 
- +|  náš pes je fakt dobytek . hele , počkej , |  <fc #FF0000>NN</fc> , tak teda jak zejtra ? to já nevim eště  | 
-<latex> +|  tak sme šli chrápat , ty vole , a |  <fc #FF0000>NN</fc> eště hrozně řešil : <nowiki>"</nowiki> no , ty vole  | 
-\begin{tabular}{rcl} +|  sou příjemný náhodou . sou . vopravdu jo . Jana |  <fc #FF0000>NP</fc> je má v modrym . nó . na ty sem  | 
-byli v hospodě s tima , s bohemistama , jak NJ s nima vždycky chodí \dots hmm . \dots a to\\ +|  jít na sociálku . ale volala , že jedou z |  <fc #FF0000>NM</fc> , jesli sem doma , že za chvíli sou tam  |
-náš pes je fakt dobytek . hele , počkej , NN , tak teda jak zejtra ? to já nevim eště\\ +
-tak sme šli chrápat , ty vole , a NN eště hrozně řešil : " no , ty vole\\ +
-sou příjemný náhodou . sou . vopravdu jo . Jana NP je má v modrym . nó . na ty sem\\ +
-jít na sociálku . ale volala , že jedou z NM , jesli sem doma , že za chvíli sou tam\\ +
-\end{tabular} +
-</latex>+
  
  --- //M. Kopřivová, V. Cvrček//  --- //M. Kopřivová, V. Cvrček//
- 
-Nějaká drobná změna. 
  
 ==== Související odkazy ==== ==== Související odkazy ====
- +<WRAP round box 49%> 
-Korpusy mluvené češtiny +[[cnk:struktura#korpusy_mluvene|Korpusy mluvené češtiny]] • [[pojmy:anotace|Anotace korpusů]] • [[cnk:oral2006|ORAL2006]] • [[cnk:oral2008|ORAL2008]] • [[cnk:bmk|BMK]] • [[cnk:pmk|PMK]] 
- +</WRAP>
-[[pojmy:anotace|Anotace korpusů]]+