음성과 영상정보를 이용한 화자 확인

Speaker Identification using Audio-Visual Information
  • RHEE PHILL KYU

초록

본 논문은 제한된 시간동안 발음된 화자의 음성과 영상정보로부터 추출된 특징을 이용한 화자확인 메커니즘을 제안한다. 본 연구의 전체적인 구성은 음성정보처리, 영상정보처리, 그리고 HMM(Hidden Markov Model)에 기반한 화자확인의 세 부분으로 이루어져있다. 음성정보처리 과정에서는 화자가 발음한 음성의 시작과 끝점을 자동으로 검출하고 화자검증을 위한 음성특징을 추출하며, 영상정보처리 과정에서는 CCD 카메라를 통해서 입력된 영상에서 얼굴, 눈, 입 영역을 검출하고 화자가 발음하는 동안 변화하는 입술의 동적정보를 추출한다. 그리고, 화자확인은 음성 관측열에 대한 HMM 유사도와 영상 관측열에 대한 HMM 유사도를 통합적으로 이용하여 이루어진다. 실험은 음성정보를 사용할 경우의 성공률, 영상정보를 사용한 경우의 성공률, 그리고 음성과 영상정보를 동시에 사용할 경우의 성공률을 각각 비교하였으며, 실험결과는 음성과 영상정보를 통합적으로 사용할 경우에 더 높은 인식률을 얻었다.

제목
음성과 영상정보를 이용한 화자 확인
제목 (타언어)
Speaker Identification using Audio-Visual Information
저자
RHEE PHILL KYU
학회명
제12회 산학연 멀티미디어 산업기술 학술대회 학술논문집