상세 보기
초록
현재 프로그래밍 소스들이 온라인에서 공개되어 있기 때문에 무분별한 표절이나 저작권에 대한 문제가 일어나고 있다. 그 중 반복된 저자가 작성한 소스코드는 프로그래밍 특성상 고유의 지문이 있을 수 있다. 본 논문은 구글 코드 잼 프로그램 소스를 심층신경망을 이용한 학습을 통해 각각의 저자를 분별하는 것이다. 이 때 원작자의 소스를 예측 기반 벡터나, 주파수 기반 접근법인 TF-IDF등의 전처리기를 사용하여 입력 값들을 벡터화해주고, 심층신경망을 이용한 학습을 통해 각 프로그램 소스 원작자를 식별하고자 한다. 전처리기를 이용하여 언어에 독립적인 학습시스템을 구성하고, 기존의 다른 학습 방법들과 비교하였다. 그 중 TF-IDF와 심층신경망을 사용한 모델은 다른 전처리기나 다른 학습방식을 사용한 것보다 좋은 성능을 보임을 확인하였다.
키워드
컴퓨터 법의학; 예측 기반 벡터; TF-IDF; 심층 학습; CNN; Computer Forensic; Frequency Based Embedding; TF-IDF; Deep Learning; CNN
- 제목
- 심층신경망을 이용한 소스 코드 원작자 식별
- 제목 (타언어)
- Souce Code Identification Using Deep Neural Network
- 저자
- 임지수; 타메르
- 발행일
- 2019-09
- 유형
- Y
- 저널명
- 정보처리학회 논문지
- 권
- 8
- 호
- 9
- 페이지
- 373 ~ 378