오토인코더를 이용한 데이터 비식별화

김승환; 전성해

doi:10.5391/JKIIS.2020.30.3.228

상세 보기

오토인코더를 이용한 데이터 비식별화

Data De-identification using Autoencoder

김승환;
전성해

초록

비식별 처리된 개인정보를 포함한 데이터를 제3자에게 제공하는 것이 본격적으로 가능하게 된 데이터법이 국회를 통과하면서 비식별 처리에 대한 중요성이 더욱 증가하고 있다. 비식별 처리는 기본적으로 데이터에서 특정 개인을 식별할 수 있는 가능성을 일정 수준 이하로 낮추는 방법인데 익명성, 다양성, 근접성 등에 기반한 모형을 사용한 마스킹과 범위 변환 방법이 널리 사용된다. 이 방법들은이해가 쉬운 장점이 있으나 정보손실을 작게 유지하면서 데이터를 변환시키는 데에는 어려움이 있다. 마스킹, 범위화 이외에도 다양한 비식별화 방법에 대한 연구가 이루어지고 있다. 본 논문에서는오토인코더 딥러닝을 사용하여 원자료에 대한 식별성을 낮추어 개인정보를 최대한 보호하면서 동시에 정보손실은 최소화할 수 있는 데이터 비식별화 방법을 제안한다. UCI 기계학습 데이터를 이용하여 제안 방법의 성능평가를 수행한다.

키워드

데이터 비식별화; 정보손실; 오토인코더; 개인정보; 데이터 잡음; Data de-identification; information loss; autoencoder; privacy; data noise

제목: 오토인코더를 이용한 데이터 비식별화

제목 (타언어): Data De-identification using Autoencoder

저자: 김승환; 전성해

DOI: 10.5391/JKIIS.2020.30.3.228

발행일: 2020-06

유형: Y

저널명: 한국지능시스템학회 논문지

권: 30

호: 3

페이지: 228 ~ 235