음성 기반 감정인식을 위한 음성 특징의 다중 해상도 조합 비교

Multi-resolution Audio Feature Analysis for Speech Emotion Recognition
  • 서지영
  • 윤수연
  • 김태용
  • 이보원

초록

최근 대부분의 감정 인식 연구는 컨볼루션 및 순환 신경망과 같은 딥 러닝 알고리즘의 개발과 함께 광범위하게 수행되었다. 딥 러닝 모델 구조 및 응용에 대한 많은 관심에 비해 음성 감정 인식을 위한 오디오 신호 자체의 고유한 특성에 대한 연구는 부족한 현황이다. 본 논문에서는 단시간 푸리에 변환, 멜-스펙트럼, MFCC를 포함하여 일반적으로 사용되는 음성 특징의 다양한 시간 및 주파수 해상도의 영향을 탐색한다. 실험은 Conformer 기반의 심층 신경망을 사용하였으며, 널리 상용되는 두 개의 공개 데이터베이스인 EmoDB와 IEMOCAP으로 훈련 및 평가하였다. 본 논문에서는 다양한 시간 및 주파수 해상도를 사용하는 단일 해상도 특징과 여러 해상도를 조합한 다중 해상도 특징에 대한 실험 결과를 보인다. EmoDB와 IEMOCAP에 대해 가장 높은 비가중치 정확도는 각각 홉 크기가 10인 다중 해상도 단시간 푸리에 변환과 윈도우 크기가 32 ms 이고 홉 크기가 10 ms인 멜-스펙트로그램으로부터 도출된다.

키워드

Speech emotion recogniitonCategorical emotionShort-time Fourier transformMFCCMel spectrogram
제목
음성 기반 감정인식을 위한 음성 특징의 다중 해상도 조합 비교
제목 (타언어)
Multi-resolution Audio Feature Analysis for Speech Emotion Recognition
저자
서지영윤수연김태용이보원
발행일
2023-03
유형
Y
저널명
전자공학회논문지
60
3
페이지
69 ~ 79