메타, 매버릭 AI 성능 부풀렸나…벤치마크 결과 신뢰성 의문
||2025.04.07
||2025.04.07
[디지털투데이 AI리포터] 메타의 새로운 플래그십 AI 모델 매버릭(Maverick)은 성능 평가 과정에서 실제 배포된 버전과 다른 최적화된 버전을 사용한 것으로 드러나 논란이 일고 있다.
6일(현지시간) IT매체 테크크런치에 따르면 매버릭은 인간 평가자가 모델의 결과를 비교하고 선호하는 모델을 선택하는 테스트인 LM 아레나에서 2위를 차지했다. 그러나 이 버전은 개발자가 널리 사용할 수 있는 버전과는 다른 것으로 보인다는 지적이다.
메타는 발표에서 LM 아레나의 매버릭이 '실험적인 채팅 버전'이라고 밝혔다. 그러나 공식 라마 웹사이트에서는 메타의 LM 아레나 테스트가 대화에 최적화된 '라마 4 매버릭'을 사용해 수행됐다고 언급하고 있다.
이처럼 벤치마크에 맞춰 모델을 조정한 후 이를 보류하고 동일한 모델의 변형을 출시할 경우, 개발자가 특정 상황에서 모델이 얼마나 잘 작동할지 정확히 예측하기 어렵다는 문제가 발생한다. 실제로 엑스(트위터)의 연구원들은 공개적으로 다운로드할 수 있는 매버릭과 LM 아레나에서 호스팅되는 모델의 동작에서 극명한 차이를 관찰했다고 한다.
고객님만을 위한 맞춤 차량