시간 및 주파수 영역 특징 기반 양방향 LSTM 모델을 이용한 음성감정인식 기법

민동진; 김덕환

doi:10.23019/kingpc.19.6.202312.002

상세 보기

시간 및 주파수 영역 특징 기반 양방향 LSTM 모델을 이용한 음성감정인식 기법

Speech Emotion Recognition using Time and Frequency Domain Feature based Bidirectional LSTM Model

민동진;
김덕환

초록

현재 음성에서 감정 상태를 이해하기 위해 강조, 음높이 변화 및 맥락과 같은 감정적 특징을 인식하는 다양한 음성감정인식(Speech Emotion Recognition)연구가 활성화 되고 있다. 본 논문은 음성 데이터에서 감정적 단서를 찾기 위해 시간 영역과 주파수 영역의 다양한 특징을 추출하고 강조, 음높이 변화를 통해 감정을 인식하는 신경망 모델을 개발하고자 한다. 부족한 데이터 셋으로 인한 과대적합을 예방하기 위해 컴퓨터 비전 분야에서 활용되는 데이터 증강 기법을 적용하였다. 또한 음성 데이터의 전처리를 수행하고 시간 영역에서 제로 크로싱 비율 (ZCR)과 RMS (Root mean square) 에너지 특징을 추출하였고 주파수 영역에서 멜 주파수 켑스트랄 계수 (MFCCs), 주파수 대역폭(Spectral Bandwidth), 주파수 중심 (Spectral Centroid), 주파수 롤오프의 최대, 최소 값(Spectral Rolloff Max and Min) 같은 스펙트럴 특징을 추출하였다. 과거와 미래의 정보를 저장할 수 있어 불연속적인 음성 데이터의 과거와 미래의 정보를 효과적으로 학습할 수 있는 양방향 LSTM 신경망 모델을 제안하였으며, 8가지 감정표현(중립, 차분함, 행복, 슬픔, 분노, 두려움, 혐오, 놀람)이 포함되어 있는 RAVDESS와 7가지 감정표현(중립, 행복, 슬픔, 분노, 두려움, 혐오, 놀람)이 포함되어 있는 TESS 데이터 셋에 대하여 각각 99.21%, 98.24%의 정확도를 확인하였다. 향후 연구에서는 음성 감정 인식 분야의 주요 어려움 중 하나인 적은 데이터 셋 문제를 메타러닝 기법을 활용하여 해결할 계획이다.

키워드

음성 감정 인식; 컴퓨터 상호 작용; 데이터 증강; 시간 및 주파수 특징 추출; 양방향 LSTM; Speech emotion recognition; human-computer interaction; time and frequency domain features; Bidirectional LSTM

제목: 시간 및 주파수 영역 특징 기반 양방향 LSTM 모델을 이용한 음성감정인식 기법

제목 (타언어): Speech Emotion Recognition using Time and Frequency Domain Feature based Bidirectional LSTM Model

저자: 민동진; 김덕환

DOI: 10.23019/kingpc.19.6.202312.002

발행일: 2023-12

유형: Y

저널명: 한국차세대컴퓨팅학회 논문지

권: 19

호: 6

페이지: 18 ~ 29