항공 도메인 특화 언어 모델을 활용한 안전사고 원인 자동 추출 방법

Automatic Extraction of Safety Accident Causes Using an Aviation-Specialized Language Model

초록

전 세계 항공 기업과 국가 기관들은 수십 년간 안전 보고서를 작성하고 이를 분석하여 항공 사고 예방을 위해 지속적으로 노력해왔다. 그러나 보고서의 규모가 방대해지고 내용이 복잡해짐에 따라 수동 분석만으로는 한계가 있다. 또한, 보안상의 이유로 웹에서 서비스하는 대형 언어 모델의 사용이 어려운 경우가 많다. 이러한 문제를 해결하기 위해 본 논문에서는 항공 안전사고 보고서에서 사고 원인을 추출하기 위해 항공 도메인에 특화된 자연어 처리 모델인 AirGemma를 제안한다. AirGemma는 Gemma2-2B 모델을 기반으로 항공 도메인 데이터를 활용한 DAPT (Domain Adaptive Pre-Training) 기법을 적용해 항공 도메인 이해도를 향상시켰다. 이후 PEFT (Parameter Efficient Fine-Tuning) 기법을 활용한 미세조정을 통해 사고 원인 추출 성능을 높였다. 실험 결과, AirGemma가 사전학습과 미세조정을 적용하지 않은 모델 대비 F1-score, ROUGE, BLEU 지표에서 우수한 성능을 기록했다. 또한 GPT-4를 평가자로 사용한 쌍대비교 결과, AirGemma는 GPT-3.5 Turbo보다 높은 승률을 기록했고 단일 답변 평가 결과 LLaMA3-70B와 GPT-3.5 Turbo에 비해 사고 원인 분석에 있어 더 높은 사실성 점수를 보였다. 이러한 결과는 항공 도메인에 특화된 모델이 사고 원인 식별에 효과적임을 입증한다. AirGemma는 항공 산업 데이터의 보안 및 제한 조건을 고려하여 로컬 환경에서 안전하게 동작할 수 있도록 설계되었으며, 항공 안전사고 분석 및 예방을 위한 새로운 접근 방안을 제시한다.

키워드

Aviation accident causesDomain specific Language ModelLarge Language ModelNatural Language ProcessingAutomatic Extraction of Accident Causes항공 안전사고도메인 특화 언어 모델대형 언어 모델자연어 처리사고 원인 추출 자동화
제목
항공 도메인 특화 언어 모델을 활용한 안전사고 원인 자동 추출 방법
제목 (타언어)
Automatic Extraction of Safety Accident Causes Using an Aviation-Specialized Language Model
저자
이하영이상원최원익
DOI
10.23019/kingpc.20.6.202412.005
발행일
2024-12
유형
Y
저널명
한국차세대컴퓨팅학회 논문지
20
6
페이지
56 ~ 68