Sinkhorn Divergence 기반 메타 지식 증류 기법

초록

지식 증류는 대규모 고성능 모델의 경량화를 위해 널리 활용되며 대표적인 경량화 기법으로 꼽힌다. 지식 증류 기법 중에서 메타 증류에 대한 연구가 학생 모델의 성능 저하를 막는 데 에 효과적임을 보였다. 하지만 기존 메타 증류 연구는 대체로 Kullback-Leibler 손실에 의 존하며 타 손실 함수를 사용한 방식은 고려하지 않는다. 단일 손실의 사용은 데이터마다 특 징을 무시하며, 상황에 따라 더 좋은 결과를 도출할 여지를 없앤다. 본 논문은 비용행렬을 통해 의미론적 이동비용을 반영하는 Sinkhorn Divergence 손실을 도입하고, 학생 모델의 상태에 적응하는 동적 교사 모델로 지식 증류를 진행하는 MSKD(Meta Sinkhorn Knowledge Distillation)를 제안한다. 복합적인 손실 함수를 사용함 으로써 데이터셋마다 Kullback-Leibler 손실에 대한 의존성을 낮추고, 메타 증류의 중심적 인 기술이 되는 교사 모델 업데이트를 강화한다. 자연어 처리 분야에서 대표적 벤치마크인 GLUE에서의 실험 결과, MRPC에서 +1.0/+2.9, RTE +0.9만큼 기존 연구를 상회하는 성능을 보이며 다른 데이터셋에서는 개선이 제한적이 었다. 그러나 MRPC, RTE와 같은 데이터셋에서는 기존 연구와 비교하여 높은 상승 폭을 보이며 손실 함수의 중요성을 강조했다. 이는 데이터셋의 특성에 따라 손실 함수의 선택이 성능에 결정적이며, 복합적인 손실 함수 가 반드시 성능 향상을 보장하지 않음을 강조한다. 또한 다양한 손실 함수의 사용을 데이터 조건에 맞춰 검토할 필요가 있음을 시사한다.

제목
Sinkhorn Divergence 기반 메타 지식 증류 기법
저자
KIM DEOKHWAN
학회명
2025년 표준인증안전학회 추계학술대회
개최지
제주대학교
학회 개최일
2025-10-30 ~ 2025-11-01