변이형 오토인코더를 이용한 영과잉 특허 데이터 분석

Zero-Inflated Patent Data Analysis using Variational Autoencoder

초록

특허문서는 새롭게 개발된 기술에 대한 상세하고 표준화된 정보를 포함하고 있기 때문에 특허데이터의 분석을 통하여 다양한 기술분석이 수행된다. 특히, 통계학과 머신러닝이 제공하는 여러 가지 분석기법을 이용한 정량적 특허데이터분석이 활발히 이루어지고 있다. 정량적특허분석을 위하여 특허문서는 정형화된 데이터 형태로 전처리되어야 하는데 이 과정에서 0 의 값이 지나치게 많이 포함되는 영과잉 문제가 발생한다. 영과잉 포아송 회귀모형 등 영과잉 문제를 해결하기 위한 통계적 분석기법들이 제안되었지만 0의 값이 지나치게 많게 되면이에 비례하여 모형의 설명력이 떨어진다. 이와 같은 문제점을 해결하기 위하여 본 연구에서는 딥러닝 모형인 변이형 오토인코더를 이용하여 정형화된 데이터로부터 재현데이터를 생성하는 방법을 제안한다. 정형화된 데이터를 그대로 사용하는 것보다 제안방법에 의한 재현데이터를 사용할 때 모형의 설명력이 높아지는 것을 확인하기 위하여 실제 특허 데이터를이용한다

키워드

Variational autoencoderzero-inflated datapatent data analysissynthetic datadeep learning변이형 오토인코더영과잉 데이터특허 데이터분석재현 데이터딥러닝
제목
변이형 오토인코더를 이용한 영과잉 특허 데이터 분석
제목 (타언어)
Zero-Inflated Patent Data Analysis using Variational Autoencoder
저자
김승환전성해
DOI
10.5391/JKIIS.2022.32.1.44
발행일
2022-02
유형
Y
저널명
한국지능시스템학회 논문지
32
1
페이지
44 ~ 50