확률 벡터간의 교차엔트로피 계산을 이용한 자동 문서 분류 시스템

Automatic Document classification system using cross entropy and weighting scheme between probabilistic vectors
  • Jung Hyun Lee

초록

문서 자동 분류 시스템은 미리 정의된 한 개 또는 그 이상의 범주에 새로이 생성되는 객체를 할당하는 시스템이다. 본 논문에서는 사용자 중심의 문서 분류 시스템을 설계하기 위하여, 초기 문서 집합에 대하여 범주들을 생성한 뒤, 입력 문서들에 대한 자연어 처리를 수행하여 이 결과를 문서-주제어 행렬로 표현하고, 문서와 문서 사이의 유사도를 정보이론에 근거한 엔트로피와 각 단어에 대한 가중치를 가지고 계산하여 입력문서를 분류하였다. 또한 분류된 문서들의 저장방식은 계층적 클러스터링 방법을 이용하였다. 사용자 프로파일의 내용은 사용자가 시스템에 접근할 때, 문서 검색에 대한 질의어 역할을 함으로써 시스템은 사용자의 기호에 부합하는 문서들을 검색하였다. 한국어 문서 집합에 적용한 결과 사용자의 기호에 부합하는 문서들의 검색 결과 순서화와 검색 정확도가 향상됨을 보였다.

제목
확률 벡터간의 교차엔트로피 계산을 이용한 자동 문서 분류 시스템
제목 (타언어)
Automatic Document classification system using cross entropy and weighting scheme between probabilistic vectors
저자
Jung Hyun Lee
학회명
정보처리학회 학술발표논문집