무음발화 디코딩을 위한 개선된 변환 모델

KIM DEOKHWAN

상세 보기

무음발화 디코딩을 위한 개선된 변환 모델

KIM DEOKHWAN

초록

성대 절제 수술이나 음성 장애로 인해 발성에 어려움을 겪는 이들에게, 무음 발화 기반 의사소통 기술에 대 한 필요성이 점차 커지고 있다. 최근 연구에서는 무음 발화를 음성 신호로 변환하기 위해 근전도(EMG) 신호 에서 변환 모델을 통해 오디오 특징을 추출하고, 이를 발성된 특징과 정렬하여 디코딩함으로써 음성 신호를 복원하는 방식을 사용하고 있다. 본 연구에서는 EMG 신호를 멜 스펙트로그램(Mel-spectrogram)으로 변환하 는 과정, 즉 변환 모델을 개선하기 위해, 변환 모델에 합성곱 블록 주의 모듈(CBAM)을 도입하였다. 제안된 모델은 채널별 및 공간적 정보를 순차적으로 고려함으로써 보다 정교한 음성 특징을 생성하며, 이를 통해 기 존 모델 대비 단어 오류율(WER)을 36%에서 34.6%로 감소시키는 성과를 달성하였다

제목: 무음발화 디코딩을 위한 개선된 변환 모델

저자: KIM DEOKHWAN

학회명: 2025 한국컴퓨터종합학술대회

개최지: ICC 제주

학회 개최일: 2025-07-01 ~ 2025-07-04