슈퍼 마리오 이용해 AI 성능 비교 해보니…1등은?
||2025.03.04
||2025.03.04
[디지털투데이 AI리포터] 미국 UC 샌디에이고의 연구 기관인 하오AI랩(Hao AI Lab)은 슈퍼 마리오 브라더스 게임을 AI의 새로운 벤치마크로 삼았다.
3일(현지시간) IT매체 테크크런치에 따르면 하오AI랩은 실시간 슈퍼 마리오 브라더스 게임에서 AI 모델들의 성능을 테스트했다. 그 결과, 앤트로픽의 클로드 3.7이 가장 뛰어난 성과를 보였고, 클로드 3.5가 그 뒤를 이었다. 반면, 구글의 제미나이 1.5 프로와 오픈AI의 GPT-4o는 다소 고전했다.
실험에 사용된 슈퍼 마리오 브라더스는 1985년 원작과는 달리 에뮬레이터에서 실행됐으며, AI가 마리오를 제어할 수 있도록 게이밍에이전트라는 프레임워크와 통합됐다.
연구진은 문제를 단계별로 풀어내는 추론 모델들이 비추론 모델보다 실시간 게임에서 더 나쁜 성능을 보였다고 밝혔다. 이는 추론 모델이 행동을 결정하는 데 시간이 걸리기 때문이라고 한다. 슈퍼 마리오 브라더스에서는 1초의 차이가 생존과 실패의 차이를 만들 수 있다.
게임은 오랜 기간 AI 성능 평가의 기준으로 사용되어 왔지만, 일부 전문가는 게임 속 AI의 성능이 기술 발전의 척도로 적합한지 의문을 제기해 왔다고 매체는 전했다.