음성-영상 특징 추출 멀티모달 모델을 이용한 감정 인식 모델 개발

김종구; 권장우

doi:10.23087/jkicsp.2023.24.4.007

상세 보기

음성-영상 특징 추출 멀티모달 모델을 이용한 감정 인식 모델 개발

Development of Emotion Recognition Model Using Audio-video Feature Extraction Multimodal Model

김종구;
권장우

초록

감정으로 인해 생기는 신체적 정신적인 변화는 운전이나 학습 행동 등 다양한 행동에 영향을 미칠 수 있다. 따라서 이러한 감정을 인식하는 것은 운전 중 위험한 감정 인식 및 제어 등 다양한 산업에서 이용될 수 있기 때문에 매우 중요한 과업이다. 본 논문에는 서로 도메인이 다른 음성과 영상 데이터를 모두 이용하여 감정을 인식하는 멀티모달 모델을 구현하여 감정 인식 연구를 진행했다. 본 연구에서는 RAVDESS 데이터를 이용하여 영상 데이터에 음성을 추출한 뒤 2D-CNN을 이용한 모델을 통해 음성 데이터 특징을 추출하였으며 영상 데이터는 Slowfast feature extractor를 통해 영상 데이터 특징을 추출하였다. 감정 인식을 위한 제안된 멀티모달 모델에서 음성 데이터와 영상 데이터의 특징 벡터를 통합하여 감정 인식을 시도하였다. 또한 멀티모달 모델을 구현할 때 많이 쓰인 방법론인 각 모델의 결과 스코어를 합치는 방법, 투표하는 방법을 이용하여 멀티모달 모델을 구현하고 본 논문에서 제안하는 방법과 비교하여 각 모델의 성능을 확인하였다.

키워드

음성 인식; 비디오 인식; 특징 추출; 멀티모달 모델; 감정 인식; Audio recognition; Video recognition; Feature extraction; Multimodal model; Emotion recognition

제목: 음성-영상 특징 추출 멀티모달 모델을 이용한 감정 인식 모델 개발

제목 (타언어): Development of Emotion Recognition Model Using Audio-video Feature Extraction Multimodal Model

저자: 김종구; 권장우

DOI: 10.23087/jkicsp.2023.24.4.007

발행일: 2023-12

유형: Y

저널명: 융합신호처리학회 논문지

권: 24

호: 4

페이지: 221 ~ 228