시각 및 언어 모델을 활용한 인터랙티브 미술 감상 AI 도슨트 시스템

김민수; 김민; 곽현정; 최예준; 이형록; 안치욱; 이원주; 조영복

doi:10.9708/jksci.2025.30.06.109

상세 보기

시각 및 언어 모델을 활용한 인터랙티브 미술 감상 AI 도슨트 시스템

An Inclusive AI Docent System for Accessible and Interactive Art Appreciation using Vision and Language Models

김민수;
김민;
곽현정;
최예준;
이형록;
외 3명

초록

본 논문은 시각장애인을 포함한 다양한 사용자가 시각 예술을 주체적으로 감상할 수 있도록, 컴퓨터 비전과 대규모 언어 모델을 결합한 대화형 미술 감상 시스템을 제안한다. 제안 시스템은YOLO 기반 객체 탐지와 VGG16 분류기를 통해 작품을 인식하고, HSV 색공간 기반 색상 보정을적용하여 감정 분석의 신뢰도를 향상시킨다. 이어서 Qwen2.5-VL-3B 모델은 시각 정보를 요약하고, Qwen2.5-32B 모델은 감성적 설명과 상호작용형 대화를 생성한다. 또한 RAG 기반 질문 응답구조와 Visual Thinking Strategies(VTS)를 활용한 프롬프트 설계를 통해 감상자의 감정 표현을 유도하고, 의미 있는 상호작용을 가능하게 한다. 본 시스템은 미술 감상의 몰입성과 접근성을 동시에 향상시키는 인공지능 응용의 가능성을 보여준다.

키워드

미술 감상; 시각장애인; 대화형 시스템; 컴퓨터 비전; 대규모 언어 모델; 감정 기반 AI; Artwork recognition; Computer vision; Vision-Language Model; Large Language Model; Visual Thinking Strategies; Human-AI interaction

제목: 시각 및 언어 모델을 활용한 인터랙티브 미술 감상 AI 도슨트 시스템

제목 (타언어): An Inclusive AI Docent System for Accessible and Interactive Art Appreciation using Vision and Language Models

저자: 김민수; 김민; 곽현정; 최예준; 이형록; 안치욱; 이원주; 조영복

DOI: 10.9708/jksci.2025.30.06.109

발행일: 2025-06

유형: Y

저널명: 한국컴퓨터정보학회논문지

권: 30

호: 6

페이지: 109 ~ 118