세계 최고 수준이라더니…xAI ‘그록3’ 벤치마크 조작 의혹
||2025.02.24
||2025.02.24
[디지털투데이 홍진주 기자] 일론 머스크 테슬라 최고경영자(CEO)의 인공지능(AI) 스타트업 xAI가 자가 AI 모델 그록3(Grok 3)의 벤치마크 결과를 과장했다는 의혹이 제기됐다.
지난 22일(현지시간) IT매체 테크크런치에 따르면 최근 오픈AI의 한 직원이 xAI가 그록3의 성능 결과를 과장했다고 주장한 가운데, 이를 두고 업계에서 관련 논란이 확산되고 있다.
xAI는 앞서 공식 블로그를 통해 그록3의 AIME 2025 평가 결과를 공개했다. AIME 2025는 수학 경시대회 문제를 기반으로 한 벤시마크 시험으로, AI의 수학적 사고 능력을 판단하는 데 사용된다.
xAI가 발표한 해당 그래프에 따르면, 그록3의 두 가지 변형 모델인 그록3 리조닝 베타(Grok 3 Reasoning Beta)와 그록3 미니 리조닝(Grok 3 mini Reasoning)는 오픈AI의 o3-미니-하이(o3-mini-high)를 능가하는 것으로 확인된다. 하지만 이를 본 오픈AI 직원들은 xAI가 o3-미니-하이의 AIME 2025 점수를 측정했던 'cons@64' 지표가 누락됐다고 지적했다.
'cons@64'은 특정 AI 모델에 각 문제에 대해 답을 64번의 시도하게 하고 가장 자주 생성된 답변을 최종 결과로 삼는 방식이다. 이는 모델의 벤치마크 점수를 큰 폭으로 높일 수 있다. 만약 해당 평가에서 cons@64를 적용한 조건이라면 그록3는 오픈AI o3-미니보다 뒤지는 것으로 나타났다. 실제로 그록3 리조닝 베타 및 그록3 미니 리조닝이 벤치마크에서 받은 첫 번재 점수는 '@1'로, 이는 o3-미니-하이보다 낮았다.
또한 그록3 리조닝 베타는 '중간' 수준의 컴퓨팅으로 설정된 오픈AI의 'o1' 모델보다 약간 뒤처지는 것으로 드러났다. 그럼에도 xAI는 그록3을 세계에서 가장 똑똑한 AI로 홍보하고 있다고 매체는 지적했다.
이 같은 주장에 대해 xAI 측은 강하게 반발했다.
이고르 바부슈킨 xAI 공동 창립자는 "오픈AI 역시 과거에 이와 유사한 방식으로 벤치마크 데이터를 발표한 바 있다"라며 "xAI의 데이터 역시 정당한 기준을 따랐으며, 특정 지표를 제외했다고 해서 결과가 왜곡된 것은 아니다"라고 강조했다.
한편 AI 연구원인 네이선 램버트는 벤치마크 논란보다 각 모델이 최고 점수를 얻기 위해 걸리는 연산 비용과 자원 소모량이 더욱 문제라고 지적했다. 그는 "벤치마크는 모델의 한계를 충분히 설명하지 못하는 경우가 많다"면서 보다 세밀한 성능 분석이 필요하다고 덧붙였다.