가중치가 부여된 연관규칙을 이용한 문서 분류

영문제목
  • JO GEUN SIK

초록

인터넷의 급속한 성장과 더불어 많은 정보와 데이터들을 인터넷을 통하여 얻을 수 있게 되었으며 많은 단체들이 문서들을 웹을 통하여 이용 가능하게 만들고 있다. 이에 따라 다양한 정보와 데이터를 효과적으로 분류하고 검색하는 문서 분류 (Documents Classification)에 대한 알고리즘이 다양한 분야에서 널리 연구 되어 왔으며 본 논문에서 초점을 두고 있는 전자 도서관 (Digital Library) 분야에서도 활발히 연구되어지고 있다. 하지만 기존의 전자 도서관의 문서 분류 알고리즘은 문서들의 각 단락의 비중을 고려하지 않은 단어들의 발생 빈도에 초점을 두어 많은 잡음 단어 (Noise Term)를 포함하고 그로 인해 분류 성능이 떨어졌다. 본 논문에서는 문서 단락의 중요도에 따라 다른 가중치를 부여하여 단어 지지도 (Term Support)가 높은 단어들을 추출하고 그 단어들로 연관 규칙 (Association Rules)을 이용하여 분류 규칙을 생성하는 방법을 제안한다. 제안된 방법의 성능평가를 위해 문서 분류에 널리 쓰이는 나이브 베이지안 분류자 (Naive Bayesian Classifier) 및 기존의 단순 연관 규칙 분류자 (Associative Classifier)와 비교 평가 하였다. 그 결과, 각 가중치가 부여된 연관 규칙 분류 방법이 나이브 베이지안 분류 방법과 단순 연관 규칙 분류 방법보다 높은 성능을 보였다.

제목
가중치가 부여된 연관규칙을 이용한 문서 분류
제목 (타언어)
영문제목
저자
JO GEUN SIK
학회명
한국정보과학회 추계학술대회