상점 매출액 데이터에서의 SHAP를 이용한 변수 선택

Feature Selection using SHAP in Store Sales Data

초록

빅데이터 시대가 되면서 다량의 데이터가 축적되고 있다. 데이터의 열(Column)의 개수가 많아지며, 상황에 따라 의미 있는 변수를 선택하는 것은 해석적 측면에서 중요하다. 또한 적합한 변수를 통해 모델의 성능과 예측력을 높이는 것도 중요하다. 본 연구에서는 다양한 변수 선택론 방법 중 Correlation Coefficient, 회귀분석의 Backward Elimination과 Stepwise 방법, Random Forest, Xgboost를 이용한 RFECV, SHAP를 선택하였다. 선택한 변수 선택 방법론으로 시뮬레이션으로 주변수를 얼마나 선택하는지 확인한다. 실제 데이터인 상점 매출액 예측 데이터에 비선형적 관계에서 사용 가능한 Random Forest, RFECV, SHAP 방법론을 적용하여 각 방법론에서 유의미하다고 선택된 변수가 무엇인지 확인한다.

키워드

변수 선택SHAPFeature SelectionSHAP
제목
상점 매출액 데이터에서의 SHAP를 이용한 변수 선택
제목 (타언어)
Feature Selection using SHAP in Store Sales Data
저자
박지민박헌진
DOI
10.36498/kbigdt.2024.9.2.15
발행일
2024-12
유형
Y
저널명
The Korea Journal of BigData
9
2
페이지
15 ~ 27