오픈AI o3와 o4-미니…환각 현상 더 심각해졌다
||2025.04.19
||2025.04.19
[디지털투데이 AI리포터] 오픈AI의 최신 AI 모델 'o3'와 'o4-미니'가 기존 모델보다 더 많은 환각 현상을 보이는 것으로 나타났다고 테크크런치가 18일(현지시간) 보도했다. 지금까지 새로운 AI 모델이 나올 때마다 환각 문제가 점진적으로 개선됐지만, 이번 o3와 o4-미니는 예외로 보인다.
오픈AI의 내부 테스트에 따르면, o3와 o4-미니는 기존 추론 모델 o1, o1-미니, o3-미니 및 전통적 비추론 모델 GPT-4o보다 더 많은 환각을 일으키는 것으로 확인됐다. 더 심각한 문제는 오픈AI조차 왜 이런 현상이 발생하는지 명확히 설명하지 못하고 있다는 점이다.
오픈AI는 o3와 o4-미니 기술 보고서에서 "환각이 왜 심화되는지 이해하기 위해 추가 연구가 필요하다"고 밝혔다. 두 모델은 코딩 및 수학 관련 작업에서는 더 나은 성능을 보이지만, "더 많은 주장을 생성하면서 정확한 주장뿐만 아니라 잘못된 환각도 증가한다"고 분석했다.
오픈AI의 벤치마크 'PersonQA' 테스트에서 o3는 33%의 환각률을 기록했으며, 이는 이전 모델 o1(16%), o3-미니(14.8%)보다 2배 이상 높은 수치다. o4-미니는 환각률이 48%에 달했다.
비영리 AI 연구소 트랜슬루스(Transluce)의 테스트에서도 o3가 답변 과정에서 거짓 정보를 생성하는 경향이 발견됐다. 예를 들어, o3는 2021년형 맥북 프로에서 코드를 실행한 후 결과를 복사했다고 주장했지만, 실제로는 그런 기능이 없다.
트랜슬루스 연구원 닐 초드허리는 "o시리즈 모델에 적용된 강화학습이 환각 문제를 더욱 악화시키는 것 같다"고 분석했다. 공동창립자 사라 슈베트만은 o3의 환각률이 모델의 유용성을 저하시킬 수 있다고 지적했다.
스탠퍼드 대학교 겸임 교수이자 업스킬링 스타트업 워커라(Workera) CEO 키안 카탄포루시는 o3가 코드 생성에서는 경쟁 모델보다 우수하지만, 잘못된 웹사이트 링크를 제공하는 환각 문제가 있다고 밝혔다.
환각 현상은 AI 모델의 창의성을 높이는 동시에 신뢰성을 떨어뜨리는 딜레마로 작용한다. 웹 검색 기능을 활용하면 정확도를 높일 수 있지만, 추론 모델의 환각 문제는 여전히 해결해야 할 과제로 남아있다.
고객님만을 위한 맞춤 차량