다양한 음성 특징값을 이용한 CNN 기반의 감정 인식 모델

JO GEUN SIK

상세 보기

다양한 음성 특징값을 이용한 CNN 기반의 감정 인식 모델

CNN-based Emotion Recognition Model using Various Voice Feature Values

JO GEUN SIK

초록

기존의 음성 기반 감정 인식 연구들은 단일한 음성 특징값으로 모델을 훈련하고 감정을 예측하였다. 그 러나 음성은 복합적인 요소로 이루어져 있기 때문에 다양한 특징값을 사용한 모델을 설계할 필요가 있다. 따라서 본 논문에서는 멜 스펙트로그램, MFCC, Centroid, Roll off를 이용한 합성곱 신경망(Convolutional neural network, CNN) 모델을 제안한다. 제안하는 모델은 각 특징값에 대해 개별적으로 합성곱 신경망을 구성하고, 합성곱 신경망의 출력값에 다항 로지스틱 회귀를 적용하여 감정을 예측한다. 실험 결과 본 논문 에서 제안하는 모델이 61.5%의 감정 예측 정확도를 얻어 기존에 연구되었던 단일 특징값을 사용한 모델 보다 최대 27.2%p의 성능 향상을 달성하여 음성을 이용한 감정 인식 모델 설계 시 음성의 다양한 측면을 고려할 수 있는 여러 가지 특징값을 사용하는 것이 적절하다는 결론을 도출하였다.

제목: 다양한 음성 특징값을 이용한 CNN 기반의 감정 인식 모델

제목 (타언어): CNN-based Emotion Recognition Model using Various Voice Feature Values

저자: JO GEUN SIK

학회명: 2019 한국컴퓨터종합학술대회

개최지: 제주국제컨벤션센터

학회 개최일: 2019-06-26 ~ 2019-06-28