비전 트랜스포머에서 효과적인 토큰 프루닝을 위한 토큰 선별 방법

A Token Selection Method for Effective Token Pruning in Vision Transformers

초록

셀프 어텐션에 기반한 비전 트랜스포머 모델은 최근 컴퓨터 비전 분야에서 활발히 사용되고 있다. 해당 모델은 여러 태스크에서 우수한 성능을 보여주는 반면, 추론 시 토큰 수에 비례하여 연산량이 증가한다는 특징이 있어 많은 수의 토큰은 추론 속도의 저하를 야기한다. 특히 이러한 점은 모델을 실제 상황에 적용 및 배포 시에 많은 제약이 발생할 수 있다. 따라서 본 논문에서는 비전 트랜스포머에서 멀티 헤드 셀프 어텐션의 연산 구조를 수정함으로써 얻을 수 있는 새로운 토큰 중요도 평가 방법을 제안한다. 해당 방법을 통해 중요한 토큰만을 선별하여 추론함으로써 성능은 유지하되 추론 속도를 향상하였다. 또한 제안된 방법은 추가적인 파라미터를 필요로 하지 않기 때문에 미세 조정이 없을 때 더욱 강인하며 기존의 토큰 프루닝 방법들과 결합할 경우 성능을 극대화할 수 있음을 입증하였다.

키워드

비전 트랜스포머멀티 헤드 셀프 어텐션모델 가속화토큰 프루닝vision transformersmulti-head self-attentionmodel accelerationtoken pruning
제목
비전 트랜스포머에서 효과적인 토큰 프루닝을 위한 토큰 선별 방법
제목 (타언어)
A Token Selection Method for Effective Token Pruning in Vision Transformers
저자
이재연최동완
발행일
2024-06
유형
Y
저널명
정보과학회논문지
51
6
페이지
567 ~ 573