효율적인 AI 추론을 위한 RISC-V 기반IREE 바이트코드 인터프리터의 설계 및 구현

박상철; 강 진 구; 김용우

상세 보기

효율적인 AI 추론을 위한 RISC-V 기반IREE 바이트코드 인터프리터의 설계 및 구현

Design and Implementation of an IREE Bytecode Interpreter onRISC-V SoCs for Efficient AI Inference

박상철;
강 진 구;
김용우

초록

소형 임베디드 환경의 머신러닝 추론은 TensorFlow Lite Micro, TVM (Tensor Virtual Machine), XLA (Accelerated Linear Algebra) 등 AOT (Ahead-Of-Time) 컴파일 방식이 널리 사용되며, 해석 오버헤드를 줄여 성능을 확보한다. 그러나 이러한 방식은 모델 변경 시마다 펌웨어 전체를 재컴파일해야 하고, 복수 모델 운용 시 저장소 중복과 유지보수 부담이 발생한다. 또한 TVM+VTA (Versatile Tensor Accelerator) 기반 FPGA 가속 오버레이 연구는 처리량 향상에는 효과적이나, 추가 자원 소모와 비트스트림 재합성이 요구되어 경량 환경에는 부적합하다. 본 연구는 이러한 문제를 해결하기 위해, IREE (Intermediate Representation Execution Environment) 컴파일러가 산출하는 바이트코드를 직접 해석하는 경량 인터프리터를 제안한다. 본 방식은 인터프리터는 변경하지 않으며, 모델 데이터와 해당 초기화 과정을 교체하는 것만으로 코드 수정 없이 모델 교체가 가능하다. 제안 인터프리터를 메모리가 256 KB로 제한된 32비트 RISC-V 기반 Rocket-SoC에서 검증한 결과, MNIST 분류 실험에서 μkernel 최적화 적용 시 비최적화 대비 약 21.14배 성능 향상을 얻었다. 또한 x86_64 환경에서는 제안 방식이 IREE 바이트코드를 경량 인터프리터로 실행함으로써 배포 크기를 최소화하였으며, 그 결과 IREE 공식 런타임 대비 6.39배, TVM 런타임 대비 16.52배 더 작게 나타났다. FPGA 합성 결과에서도 Rocket-SoC는 TVM+VTA 기반보다 LUT, FF, 메모리 사용이 적고, 모델 변경 시 비트스트림 재합성이 필요 없음을 확인하였다. 결론적으로 제안 구조는 기존 널리 사용되는 정적 방식의 한계를 극복하며, 모델 교체 유연성과 배포 효율, 자원 절감에서 강점을 가진다.

키워드

IREE; Interpreter; RISC-V; AI inference

제목: 효율적인 AI 추론을 위한 RISC-V 기반IREE 바이트코드 인터프리터의 설계 및 구현

제목 (타언어): Design and Implementation of an IREE Bytecode Interpreter onRISC-V SoCs for Efficient AI Inference

저자: 박상철; 강 진 구; 김용우

발행일: 2026-04

유형: Y

저널명: 전자공학회논문지

권: 63

호: 4

페이지: 3 ~ 11