상세 보기
초록
기존의 역회일만을 사용한 정보 검색 시스템은 사용자 질의어가 각각의 문서에 존재하는지의 여부만을 반영하기 때문에 사용자가 원하는 문서를 검색하는데 많은 시간이 소요되며 검색된 문서의 양이 많은 관계로 정확한 정보를 검색하지 못하는 경우도 있다.이러한 문제를 해결하기 위하여 본논문에서는 사용자의 질의어와 이 질의어에 따라 검색된 문서사이의 유사도를 계산하기 위하여 샤논의 정보이론에 근거한 확률벡터 정보량을 이용하였다. 사용자 질의어와 각 문서의 색인어와의 엔트로피를 계산하기 위하여 공기정보를 결합한 변형된 확률 정보량 계산 공식을 유도하였다. 실험은 KT set 문서 4,414개의 문서를 대상으로 수행하여 KT set 공식 질의어 50개를 사용하였다. 정확도에 대한 평가는 사용자 질의어에 따라 검색된 적합 문헌의 상위 20개 문서에 대해서만 계산을 수행하였다. 실험 결과 기존의 역화일만을 사용한 검색 시스템보다 재현율을 유지하면서 정확도는 약 10% 정도 증가하였음을 알 수 있었다.
- 제목
- 사용자 질의어와 주제어들 간의 에트로피를 이용한 문서 순위 재조정
- 제목 (타언어)
- Ranking of Document Using Entropy between User Query and Document Terms
- 저자
- Jung Hyun Lee
- 학회명
- 한국정보처리학회 춘계 학술발표논문집