패킷 표현 학습에서 플로우 별 분할 기반 평가: 암호화 트래픽 분류에서 데이터 스누핑과 페이로드 의존성

Per-Flow Split Evaluation for Packet Representation Learning: Data Snooping and Payload Dependency in Encrypted Traffic Classification

초록

현대의 인터넷에서 대부분의 패킷의 페이로드가 암호화되어 교환되면서, 기존 심층 패킷 검사 기반의 트래픽 분류 방식의 한계를 극복하고자 딥러닝을 활용한 트래픽 분류 연구가 활발히 진행되고 있다. 특히 트랜스포머 구조의 등장 이후, 암호화된 트래픽 분류 문제에 이를 적용한 분류 프레임워크가 제안되고 있다. 이중 사전학습된 인코더를 활용한 모델들은 여러 태스크에서 높은 분류 성능을 보인다고 알려져 있었으나, 최근 연구에서 ET-BERT의 성능 평가 과정에 문제가 있음이 보고되었다. 본고에서는 사전학습된 인코더를 활용하 면서도 ET-BERT와는 다른 방식으로 동작하는 PacRep 또한 성능 평가 과정에서 데이터 스누핑 오류를 범했음을 간접적으로 확인하는 실험을 설계, 과적합 가능성이 있음을 확인한다. 또한 암호화된 페이로드를 입력으로 활용하는 PacRep의 분류 성능이 페이로드에 얼마나 의존하는지 실험을 통해 살펴보고, 과적합 가능성에 대해 논의한다.

제목
패킷 표현 학습에서 플로우 별 분할 기반 평가: 암호화 트래픽 분류에서 데이터 스누핑과 페이로드 의존성
제목 (타언어)
Per-Flow Split Evaluation for Packet Representation Learning: Data Snooping and Payload Dependency in Encrypted Traffic Classification
저자
Heejun Roh
학회명
2025 한국정보과학회 한국소프트웨어종합학술대회 (KSC 2025)
개최지
전라남도 여수시
학회 개최일
2025-12-16 ~ 2025-12-19