빅데이터 기반 영화 허위 리뷰 감지에 대한 연구 ·

초록

본 연구는 I-GPS 사업단의 지원을 받아 인천광역시 버스노선 최적화를 목표로 프로젝트를 진행하고 있는 I-CINEMA 팀의 해결 과정에 관하여 발표하고자 한다. I-CINEMA 팀은 2017년부터 영화 관객 수 예측에 대해 연구하여 관람객의 만족도 하락 및 영화사?배급사의 이윤 감소 문제를 해결하였고, 허위 리뷰로 인한 잠재적 관람객의 혼동 문제를 해결하기 위해 2019년도부터 프로젝 트 목표를 정확도 높은 허위 리뷰 감지로 설정하였다. 영화 허위 리뷰와 관련하여 지속적인 언론 보도 등을 바탕 으로 여러 문제들을 확인하였다. 허위 리뷰로 인해 관람객의 만족도 하락으로 이어질 뿐만 아니라, 경쟁 영화에의 고의적인 부정적 리뷰로 인해 영화사?배급사의 이윤 감소도 야기되었다. 이에 따라 문제 개선이 시급함을 판단하였다. 허위 리뷰에는 긍정적 리뷰와 부정적 리뷰가 모두 존재한다 는 것, 개봉 후 시간이 지남에 따라 허위 리뷰가 감소한다는 것, 흥행의 정도가 너무 높아지면 오히려 허위 리뷰의 비율이 감소한다는 것을 고려하여, 문제 해결 과정인 데이터 수집 및 정제, Modeling 및 학습의 세부과정을 수립하였다. 먼저 데이터를 수집하는 과정에서는, 네이버 영화에서 네티 즌 평점을 crawling 하여 작성자, 작성 시간, 리뷰 내용 등 필 요한 정보를 추출하였다. 학습에 이용할 수 있다고 판단되는 영화들을 대상으로 하였으며, 이후 학습이 가능한 형태로 전처 리 과정을 진행하였다. 다른 연구에서 유사 목표를 가지고 수립된 Model에서는 높 지 않은 정확도의 결과를 도출해내어 제 기능을 하지 못하였 다. I-CINEMA 팀은 허위로 판별된 실제 리뷰를 데이터로 수집 할 수 없어 비지도학습으로 진행되는 점을 고려, 어떠한 리뷰 가 허위 리뷰인지에 대한 기준(작성자의 리뷰 작성 기록, 리뷰 길이, 자주 등장하는 어휘군 등)을 수립하였고, 이를 정량화하 여 합리적 결과를 도출하는 NLP Model을 연구하고 있다. 본 연구에서는 이러한 빅데이터 기반 영화 허위 리뷰 감지 에 관한 연구를 I-CINEMA 팀의 문제해결 과정을 통하여 소개 하고자 한다.

제목
빅데이터 기반 영화 허위 리뷰 감지에 대한 연구 ·
저자
KANG SUNG WOO
학회명
2020 공학교육 학술대회
학회 개최일
2020-09-17 ~ 2020-09-18