모바일 환경에서의 효과적인 LLM 추론을 위한 동적 청크 병렬화 기법

Eojin Lee

상세 보기

모바일 환경에서의 효과적인 LLM 추론을 위한 동적 청크 병렬화 기법

DCP: Accelerating Mobile LLM Inference with Dynamic Chunked Parallelism

Eojin Lee

초록

프라이버시 문제와 네트워크 지연 없는 실시간 추론에 대한 요구가 증가함에 따라, 온디바이스 LLM에 대한 관심이 높아 지고 있다. 최근 경량 추론 엔진인 llama.cpp가 빠르게 발전하며, 이를 활용한 모바일 LLM 추론이 활발히 연구되고 있다. 그러나 llama.cpp는 성능이 상이한 모바일 CPU 코어들에 워크로드를 균등하게 분배하므로, 고성능 코어의 연산 활용률 저하와 가장 성능이낮은 코어가 전체 시스템 성능을 제한하는병목 현상이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 모바일 시스템의 이기종 멀티코어 환경을 고려한 새로운 텐서 병렬화 기법인 DCP를 제안한다. DCP는 텐서를 청크단위로 분할하고,각코어의실시간성능에따라청크를동적으로할당한다. Galaxy S24 Ultra에서의실험결과, DCP 는 기존 llama.cpp 대비 프리필 단계에서 최대 2.57×, 디코딩 단계에서 최대 1.77×의 속도 향상을 달성하였다.

제목: 모바일 환경에서의 효과적인 LLM 추론을 위한 동적 청크 병렬화 기법

제목 (타언어): DCP: Accelerating Mobile LLM Inference with Dynamic Chunked Parallelism

저자: Eojin Lee

학회명: 한국소프트웨어종합학술대회

학회 개최일: 2025-12-16 ~ 2025-12-19