VAD를 이용한 임베디드 음성인식 처리 시간 최적화 연구

Optimization of Processing Time in Embedded Speech Recognition Using VAD

초록

임베디드 시스템에서 제한된 연산 성능으로 인해 클라우드 기반 음성인식이 주로 사용된다. 그러나 기존 연구에서는 전처리 없이 무음 구간을 포함한 음성 데이터가 클라우드 서버로 전송됨에 따라 전체 처리 시간이 증가하는 문제가 발생한다. 본 연구에서는 전체 처리 시간을 감소시키기 위한 방안으로, 임베디드 기기 내에서 음성 활동 검출(Voice Activity Detection, VAD)을 통해 전처리를 수행 후 유효 음성 구간만을 클라우드로 전송하여 음성인식을 진행하는 시스템을 제안한다. 이 시스템의 실용 가능성을 알아보기 위해, 임베디드 기기에서 대화형 단문 음성 데이터셋을 에너지, 통계, 딥러닝 기반 VAD 전처리가 각각 포함된 시스템에 적용하여 음성인식을 진행하고 VAD 처리 시간, 음성인식 처리 시간, 전체 처리 시간, 오류율 등을 측정하였다. 실험 결과, 통계 기반 VAD를 적용한 경우에서 전처리 없는 기존의 방식과 비교해 평균 전체 처리 시간이 약 14% 감소하여 가장 뛰어난 성능을 보였다. 본 연구는 연산 자원이 제한된 환경에서 클라우드 음성인식 시스템의 처리시간을 단축시킬 수 있는 실질적 방안을 제시한다.

키워드

EmbeddedSpeech RecognitionVADVoiceCloud
제목
VAD를 이용한 임베디드 음성인식 처리 시간 최적화 연구
제목 (타언어)
Optimization of Processing Time in Embedded Speech Recognition Using VAD
저자
전정환이상민
발행일
2026-02
유형
Y
저널명
재활복지공학회논문지
20
1
페이지
20 ~ 27