라디오 퍼즐문제로 AI 벤치마크 개발…추론 능력 평가한다

[디지털투데이 AI리포터] 미국 공영라디오 NPR에서 매주 일요일마다 출제되는 퍼즐이 AI 모델의 논리적 추론 능력을 평가하는 벤치마크로 사용되고 있다.

16일(현지시간) IT매체 테크크런치에 따르면 매주 NPR의 진행자 윌 쇼츠가 내는 '선데이 퍼즐'은 사전 지식 없이도 풀 수 있지만, 숙련된 참가자에게도 상당히 도전적이다.

최근 웰즐리 칼리지, 오벌린 칼리지, 텍사스 대학교 오스틴 등 여러 기관의 연구진이 선데이 퍼즐을 사용해 AI 벤치마크를 만들었다. 이 벤치마크는 약 600개의 선데이 퍼즐 수수께끼로 구성되어 있다.

벤치마크 결과 가장 성능이 좋은 모델은 o1로 59%의 점수를 기록했으며, 뒤를 이어 o3-미니가 47%의 점수를 기록했다. 연구진은 이러한 모델이 향상될 수 있는 영역을 식별하기 위해 추가적인 테스트를 계획 중이다.

연구를 공동 저술한 노스이스턴 대학교 관계자는 "우리는 일반적인 지식만으로 해결할 수 있는 문제로 벤치마크를 개발하고 싶었다"라고 말했다.