클로드, AI 성능 평가서 1위 차지…GPT-5 제쳤다
||2025.09.30
||2025.09.30
[디지털투데이 AI리포터] 오픈AI의 인공지능(AI) 성능 평가에서 앤트로픽의 클로드(Claude)가 1위를 차지했다.
29일(현지시간) IT매체 테크레이더에 따르면, 오픈AI가 도입한 새로운 평가 시스템 GDPval에서 클로드 오푸스 4.1(Claude Opus 4.1)은 47.6%의 승률로 가장 우수한 성능을 보였으며, GPT-5는 38.8%로 2위에 그쳤다.
3위는 o3 하이(o3 high)로, 34.1%의 승률을 기록했다. 반면, GPT-4o는 승률 12.4%를 기록하며 그록4(Grok 4)와 제미나이 2.5 프로(Gemini 2.5 Pro)에 크게 뒤처졌다.
클로드는 정부·보건·복지 등 9개 산업 분야 중 8개에서 최고 성과를 보였으며, 다양한 업무 과제에서도 우위를 점했다. 여기에는 불만 고객에게 반품 요청에 대한 이메일 답변 작성, 테이블 레이아웃 최적화, 구매 주문서 감사 등이 포함됐다.
이번 결과는 기존 AI 벤치마크와 달리 실전 작업을 기반으로 평가됐다는 점에서 의미가 크다. 오픈AI는 GDPval이 AI의 실질적 성능을 측정하는 새로운 기준이 될 것으로 기대하고 있다.
고객님만을 위한 맞춤 차량
