오토인코더를 이용한 데이터 비식별화

Data De-identification using Autoencoder

초록

비식별 처리된 개인정보를 포함한 데이터를 제3자에게 제공하는 것이 본격적으로 가능하게 된 데이터법이 국회를 통과하면서 비식별 처리에 대한 중요성이 더욱 증가하고 있다. 비식별 처리는 기본적으로 데이터에서 특정 개인을 식별할 수 있는 가능성을 일정 수준 이하로 낮추는 방법인데 익명성, 다양성, 근접성 등에 기반한 모형을 사용한 마스킹과 범위 변환 방법이 널리 사용된다. 이 방법들은이해가 쉬운 장점이 있으나 정보손실을 작게 유지하면서 데이터를 변환시키는 데에는 어려움이 있다. 마스킹, 범위화 이외에도 다양한 비식별화 방법에 대한 연구가 이루어지고 있다. 본 논문에서는오토인코더 딥러닝을 사용하여 원자료에 대한 식별성을 낮추어 개인정보를 최대한 보호하면서 동시에 정보손실은 최소화할 수 있는 데이터 비식별화 방법을 제안한다. UCI 기계학습 데이터를 이용하여 제안 방법의 성능평가를 수행한다.

키워드

데이터 비식별화정보손실오토인코더개인정보데이터 잡음Data de-identificationinformation lossautoencoderprivacydata noise
제목
오토인코더를 이용한 데이터 비식별화
제목 (타언어)
Data De-identification using Autoencoder
저자
김승환전성해
DOI
10.5391/JKIIS.2020.30.3.228
발행일
2020-06
유형
Y
저널명
한국지능시스템학회 논문지
30
3
페이지
228 ~ 235