Multimodal Emotion Recognition based on Feature-level fusion of Facial Expression-Audio Modalities

KIM DEOKHWAN

상세 보기

Multimodal Emotion Recognition based on Feature-level fusion of Facial Expression-Audio Modalities

KIM DEOKHWAN

초록

This paper proposed a Feature-level fusion technique that combines facial expression and audio modalities for multimodal emotion recognition. The learning model utilizes a hybrid approach combining CNN and LSTM to learn the spatiotemporal characteristics of video and audio modalities effectively. Compared to a unimodal approach, speech emotion recognition achieved 74% accuracy, and facial emotion recognition achieved 83% accuracy, while the proposed multimodal approach achieved 93% accuracy, demonstrated that multimodal emotion recognition is more accurate than unimodal emotion recognition. Furthermore, in tests using the RAVDESS dataset, the proposed model achieved higher emotion recognition rates compared to related studies. This study demonstrated the possibility of multimodal emotion recognition and designed a model capable of recognizing emotions in various environments and situations. Through this, we aim to contribute to the advancement of emotion recognition technology.

제목: Multimodal Emotion Recognition based on Feature-level fusion of Facial Expression-Audio Modalities

저자: KIM DEOKHWAN

학회명: The 10th International Conference on Next Generation Computing (ICNGC 2024)

개최지: Holy Angel University, Philippines

학회 개최일: 2024-11-20 ~ 2024-11-23