상호정보량을 이용한 색인어 분류에 의한 웹 정보검색 시스템의 정확도 향상

Improve precision of WWW IR system by keyword clustering using Multual Information
  • Jung Hyun Lee

초록

정보검색 시스템에서의 색인어 추출은 주로 단어의 출현 빈도 정보만을 이용하고 있기때문에 동음이의어 단어들의 중의성으로 인한 부적절한 키워드가 추출되기도 한다. 또한 색인어에 대한 의미를 고려하고 있지 않기 때문에 사용자의 질의 의도와는 다른 검색 결과가 나타나기도 한다. 이는 색인어에 대한 의미를 고려치 않고는 색인어를 정확하게 추출하거나, 재현률을 희생하여도 근본적으로 정확도를 한계치 이상으로 증가시킬 수 없음을 나타낸다. 본 논문에서는 상대 출현빈도와 역문헌 빈도에 의해 추출된 색인어에 대하여 원문을 대상으로 공기(co-occurrence)단어들을 추출하고, 상호 정보량의 계산에 의해 색인어들을 의미에 따라 재분류함으로써 재현률을 감소시키지 않고 정확도를 향상시킬 수 있는 기법을 제안한다.

제목
상호정보량을 이용한 색인어 분류에 의한 웹 정보검색 시스템의 정확도 향상
제목 (타언어)
Improve precision of WWW IR system by keyword clustering using Multual Information
저자
Jung Hyun Lee
학회명
정보과학회 가을학술발표논문집