“오픈AI 기술적 한계?”… 최신 AI모델 ‘o3, o4-미니’ 환각 심해
||2025.04.20
||2025.04.20
오픈AI가 최근 새로 내놓은 추론형 AI 모델 ‘o3’와 ‘o4-미니’의 할루시네이션(환각·왜곡) 현상이 심한 것으로 알려졌다.
20일(현지시각) IT전문 매체 테크크런치에 따르면 오픈AI는 사내 벤치마크인 퍼슨 QA(Person QA)에서 o3가 33%의 질문에 대해 환각을 일으킨 것으로 파악했다. 이전 모델인 ‘o1’과 ‘o3-미니’는 같은 평가에서 각각 16%, 14.8%를 기록한 바 있다.
o4 미니의 경우 무려 48%의 환각을 나타냈다. 심지어 비추론 모델인 GPT-4o보다 더 자주 환각에 빠지는 것으로 나타났다.
오픈AI는 “더 많은 연구가 필요하다”고만 전하며 환각에 대한 정확한 이유는 밝히지 않았다. 또 관련 기술보고서에서는 “전반적으로 더 많은 주장을 한다’며 “더 정확한 주장을 비롯해 더 부정확하거나 왜곡된 주장을 한다”고 밝혔다.
오픈AI는 지난 16일 o3와 o4-미니를 공개하며 이미지로 생각하고 판단할 수 있는 첫 번째 모델이라고 설명했다. 당시 오픈AI는 “o3와 o4-미니는 사용자가 화이트보드에 스케치한 그림이나 PDF 다이어그램 등 다양한 이미지를 업로드하면 이를 분석한 후 사고 흐름을 구성해 응답한다”며 “저해상도 이미지도 인식할 수 있어 시각 정보 기반 질문에도 안정적인 추론이 가능하다”고 말한 바 있다.
업계에서는 환각 현상이 심하면 활용성이 떨어진다고 지적한다. 일각에서는 오픈AI의 기술적 한계가 드러난 것이 아니냐는 우려의 시각도 보내고 있다. 실제로 비영리 AI연구소 트랜슬루스는 테스트를 통해 o3가 짜맞추기 형태의 답변 도출 과정을 거친다는 점을 발견했다.
니코 펠릭스 오픈AI 대변인은 “모든 모델에서 환각 문제를 해결하기 위해 지속적으로 연구하고 있다”며 “우리는 정확도와 신뢰도 개선을 위해 끊임없이 노력하고 있다”고 밝혔다.
허인학 기자
ih.heo@chosunbiz.com
고객님만을 위한 맞춤 차량