심층신경망을 이용한 소스 코드 원작자 식별

Souce Code Identification Using Deep Neural Network
  • 임지수
  • 타메르

초록

현재 프로그래밍 소스들이 온라인에서 공개되어 있기 때문에 무분별한 표절이나 저작권에 대한 문제가 일어나고 있다. 그 중 반복된 저자가 작성한 소스코드는 프로그래밍 특성상 고유의 지문이 있을 수 있다. 본 논문은 구글 코드 잼 프로그램 소스를 심층신경망을 이용한 학습을 통해 각각의 저자를 분별하는 것이다. 이 때 원작자의 소스를 예측 기반 벡터나, 주파수 기반 접근법인 TF-IDF등의 전처리기를 사용하여 입력 값들을 벡터화해주고, 심층신경망을 이용한 학습을 통해 각 프로그램 소스 원작자를 식별하고자 한다. 전처리기를 이용하여 언어에 독립적인 학습시스템을 구성하고, 기존의 다른 학습 방법들과 비교하였다. 그 중 TF-IDF와 심층신경망을 사용한 모델은 다른 전처리기나 다른 학습방식을 사용한 것보다 좋은 성능을 보임을 확인하였다.

키워드

컴퓨터 법의학예측 기반 벡터TF-IDF심층 학습CNNComputer ForensicFrequency Based EmbeddingTF-IDFDeep LearningCNN
제목
심층신경망을 이용한 소스 코드 원작자 식별
제목 (타언어)
Souce Code Identification Using Deep Neural Network
저자
임지수타메르
DOI
10.3745/KTSDE.2019.8.9.373
발행일
2019-09
유형
Y
저널명
정보처리학회 논문지
8
9
페이지
373 ~ 378