상세 보기
데이터 비식별화를 이용한 빅데이터 통합
Big Data Integration using Data De-identification
- 김승환;
- 전성해
초록
여러 곳에 흩어져 있는 방대한 데이터를 통합하여 빅데이터 플랫폼을 구축하고 분석하려는 시도가 공공부문에서민간부문에 이르기까지 활발하게 진행되고 있다. 공공 빅데이터 플랫폼은 국가발전과 국민 삶의 질을 높이기 위하여구축되고 민간 빅데이터 플랫폼은 고객정보를 마케팅에 활용하여 기업의 이익추구와 성장을 위하여 도입되고 있다. 빅데이터 플랫폼 구축을 위하여 공공기관 및 기업이 보유한 데이터들이 서로 통합되는 과정에서 개인정보가 개인의 동의없이 조금이라도 공개되는 것은 불법이다. 이와 같은 경우에 비식별화 처리기법을 통하여 개인정보가 나타나지 않도록가공한 후 빅데이터 플랫폼 구축작업이 진행되지만 이 과정에서 정보 손실이 발생한다. 즉, 데이터를 제공하는 입장에서는개인정보 보호를 위해 비식별 처리 수준을 높게 하길 원하고 데이터를 제공받는 입장에서는 예측력 높은 분석모형을 만들기위하여 정보손실이 작은 형태의 데이터를 원한다. 이와 같은 이해관계의 상충으로 인하여 비식별 처리 데이터의 활용 자체가불가능할 경우도 발생한다. 본 논문에서는 최적 절단값을 이용하여 빅데이터 통합 플랫폼 구축을 위한 데이터 비식별과정에서 데이터를 제공하는 입장과 받는 입장을 동시에 만족시킬 수 있는 방법을 제안한다. 제안 방법의 성능평가를 위하여UCI 머신러닝 저장소의 데이터를 이용한 실험을 수행한다.
키워드
비식별화; 빅데이터 플랫폼; 개인정보; k 익명성; 최적 절단값; De-identification; big data plotform; privacy; k anonymity; optimal cutoff value
- 제목
- 데이터 비식별화를 이용한 빅데이터 통합
- 제목 (타언어)
- Big Data Integration using Data De-identification
- 저자
- 김승환; 전성해
- 발행일
- 2019-06
- 유형
- Y
- 저널명
- 한국지능시스템학회 논문지
- 권
- 29
- 호
- 3
- 페이지
- 235 ~ 241