신용카드 거래 데이터에 대한 재현 데이터 생성 방법 비교 연구

Comparison study of synthetic data generation methods for credit card transaction data
  • 정현우
  • 조윤상
  • 고건우
  • 송재익
  • 유동현

초록

재현 데이터 생성은 개인정보 보호와 데이터 유용성 확보 측면에서 최근 많은 관심을 받는 통계적 노출 제어의 주요 분야이다. 본 연구에서는 고객의 신용카드 거래 데이터를 기반으로 범주형 변수와 연속형 변수가 혼합된 상황 하에서 최근 재현 데이터 생성에 많이 활용되는 synthpop, 변분 오토인코더, 생성적 적대 신경망 모형을적용하고 재현 데이터의 노출 위험 및 유용성을 측정하여 비교하였다. 노출 위험 측도로는 외부 공격자 가정에 기반한 목표 속성 식별 확률을 고려하였으며 유용성 지표로는 성향점수 기반 평균제곱오차 및 관심 통계량의 비를 고려하였다. 노출 위험과 유용성 측도의 비교 결과로 synthpop은 노출 위험과 유용성이 가장 높게 나타났으며 변분 오토인코더는 저빈도의 범주와 다수의 범주를 지닌 변수를 지닌 신용 카드 거래 데이터에 대한 재현 성능이 유용성 측면에서 가장 낮게 나타났다. 조건부 벡터 기반의 생성적 적대 신경망 모형의 노출 위험은 synthpop과 비교 시 상대적으로 낮은 위험도와 유사한 유용성을 나타내었다.

키워드

Credit card transactiongenerative adversarial networksynthetic datasynthpopvariational autoencoder변분 오토인코더신용카드 거래 데이터재현 데이터적대적 생성 신경망synthpop
제목
신용카드 거래 데이터에 대한 재현 데이터 생성 방법 비교 연구
제목 (타언어)
Comparison study of synthetic data generation methods for credit card transaction data
저자
정현우조윤상고건우송재익유동현
발행일
2023-01
유형
Y
저널명
한국데이터정보과학회지
34
1
페이지
49 ~ 72