음성 기반 감정인식을 위한 음성 특징의 다중 해상도 조합 비교

서지영; 윤수연; 김태용; 이보원

상세 보기

음성 기반 감정인식을 위한 음성 특징의 다중 해상도 조합 비교

Multi-resolution Audio Feature Analysis for Speech Emotion Recognition

서지영;
윤수연;
김태용;
이보원

초록

최근 대부분의 감정 인식 연구는 컨볼루션 및 순환 신경망과 같은 딥 러닝 알고리즘의 개발과 함께 광범위하게 수행되었다. 딥 러닝 모델 구조 및 응용에 대한 많은 관심에 비해 음성 감정 인식을 위한 오디오 신호 자체의 고유한 특성에 대한 연구는 부족한 현황이다. 본 논문에서는 단시간 푸리에 변환, 멜-스펙트럼, MFCC를 포함하여 일반적으로 사용되는 음성 특징의 다양한 시간 및 주파수 해상도의 영향을 탐색한다. 실험은 Conformer 기반의 심층 신경망을 사용하였으며, 널리 상용되는 두 개의 공개 데이터베이스인 EmoDB와 IEMOCAP으로 훈련 및 평가하였다. 본 논문에서는 다양한 시간 및 주파수 해상도를 사용하는 단일 해상도 특징과 여러 해상도를 조합한 다중 해상도 특징에 대한 실험 결과를 보인다. EmoDB와 IEMOCAP에 대해 가장 높은 비가중치 정확도는 각각 홉 크기가 10인 다중 해상도 단시간 푸리에 변환과 윈도우 크기가 32 ms 이고 홉 크기가 10 ms인 멜-스펙트로그램으로부터 도출된다.

키워드

Speech emotion recogniiton; Categorical emotion; Short-time Fourier transform; MFCC; Mel spectrogram

제목: 음성 기반 감정인식을 위한 음성 특징의 다중 해상도 조합 비교

제목 (타언어): Multi-resolution Audio Feature Analysis for Speech Emotion Recognition

저자: 서지영; 윤수연; 김태용; 이보원

발행일: 2023-03

유형: Y

저널명: 전자공학회논문지

권: 60

호: 3

페이지: 69 ~ 79