오픈AI ‘o3’ 성능 과장했나…벤치마크 신뢰성 논란
||2025.04.22
||2025.04.22
[디지털투데이 김예슬 기자] 오픈AI의 o3 AI 모델이 발표 당시 벤치마크 점수와 실제 성능 간의 차이로 인해 논란이 되고 있다고 20일(현지시간) IT매체 테크크런치가 전했다.
오픈AI는 지난해 12월 o3를 공개하며 프론티어매스(FrontierMath) 문제의 25%를 해결할 수 있다고 주장했다.
오픈AI의 최고 연구 책임자인 마크 첸은 "현재 출시된 모든 제품이 프론티어매스에서 2% 미만을 기록했다"며 "내부적으로 테스트 시간 계산을 공격적으로 설정하면 25% 이상을 얻을 수 있다는 것을 확인했다"고 밝혔다.
그러나 프론티어매스의 연구 기관인 에포크AI(Epoch AI)가 o3에 대한 독립적인 벤치마크 테스트를 실시한 결과, 점수는 10%에 그쳤다. 이는 오픈AI가 주장한 최고 점수보다 훨씬 낮은 수치다.
그렇다고 오픈AI가 거짓말을 한 것은 아니다. 오픈AI가 지난해 12월 발표한 벤치마크 결과에는 에포크가 관찰한 점수와 일치하는 하한선이 표시되어 있다. 또한 에포크는 자사의 테스트 설정이 오픈AI와 다를 가능성이 있으며, 평가에 프론티어매스의 업데이트된 릴리스를 사용했다고 언급했다.
오픈AI의 기술 담당자인 웬다 저우(Wenda Zhou)는 프로덕션 단계의 o3가 12월에 시연된 o3 버전보다 "실제 사용 사례에 더 최적화"되어 있으며 속도도 더 빠르다고 밝혔다. 따라서 벤치마크 격차가 발생할 수 있다는 설명이다.
저우는 "모델의 비용 효율성과 전반적인 유용성을 높이기 위해 최적화 작업을 진행했다"며 "우리는 여전히 이 모델이 훨씬 더 나은 모델이라고 믿고 희망한다"고 전했다.
아울러 o3의 사전 출시 버전을 테스트한 조직인 ARC 프라이즈 파운데이션에 따르면 , 공개 o3 모델은 채팅 및 제품 사용에 맞춰 조정된 다른 모델이라고 한다.
한편, AI 벤치마크의 신뢰성 문제는 업계 전반으로 확산되고 있다. 일론 머스크의 xAI는 최근 AI 모델 그록3의 벤치마크 데이터를 왜곡했다는 비판을 받았으며, 메타 역시 내부 테스트 결과와 다른 버전을 공개해 논란이 일었다.
고객님만을 위한 맞춤 차량