"GPT-5 인간 수준 도달했다고?"…오픈AI 평가 지표 ‘GDPval’ 봤더니
||2025.09.26
||2025.09.26
[디지털투데이 이윤서 기자] 인공지능(AI)의 확산 속도가 가속화되는 가운데, 지난 8월 출시된 오픈AI 차세대 모델 GPT-5의 성능은 어느 정도 수준까지 도달했을까. 이러한 의문을 해소하기 위해 오픈AI가 새로운 AI 모델 평가 지표인 'GDPval'을 공개했다.
그 결과는 충격적이었다. IT매체 테크크런치가 보도한 GDPval 결과에 따르면, GPT-5는 인간 전문가와 유사한 수준의 성과를 보인 것으로 나타났다. 이는 AI가 단순 언어 모델을 넘어 실제 직무 환경에서도 의미 있는 결과를 낼 수 있다는 가능성을 보여주는 대목이다.
다만, 이러한 결과가 곧바로 인간의 일자리를 대체한다는 의미는 아니다. 악시오스(Axios)에 의하면, 일부 기업 최고경영자(CEO)들은 AI가 불과 몇 년 안에 상당수 직무를 대체할 것이라고 전망했지만, 오픈AI는 GDPval이 보고서 작성과 같은 제한된 업무 영역만을 반영하고 있다고 강조했다. 즉, 실제 직무 현장에서 요구되는 협업 능력이나 맥락적 판단까지 포괄하는 수준에는 아직 도달하지 못했다는 것이다.
GDPval은 미국 국내총생산(GDP)에 가장 크게 기여하는 9개 주요 산업군과 소프트웨어 엔지니어·간호사·언론인 등 44개 직종을 대상으로 진행됐다. 오픈AI는 첫 번째 버전인 GDPval-v0에서 전문가들에게 '인간 작성 보고서'와 'AI 작성 보고서'를 제시하고, 더 적합한 보고서를 고르도록 했다. 이를 통해 AI 모델의 직종별 승률을 인간과 비교하는 방식으로 평가가 이뤄졌다.
테스트 결과, GPT-5-하이(GPT-5-high)는 40.6%의 작업에서 인간 전문가와 동등한 수준으로 평가됐다. 경쟁사 앤트로픽의 클로드 오푸스 4.1(Claude Opus 4.1)은 49%의 작업에서 전문가 수준을 기록했으며, 오픈AI는 클로드 오푸스 4.1의 성과에 대해 그래픽 영향이 있을 것이라고 평가했다.
그러나 GDPval은 여전히 제한적인 실험에 불과하다. 실제 직무에는 보고서 작성 외에도 사람 간 상호작용, 복잡한 문제 해결, 다층적 의사결정이 포함되기 때문이다. 오픈AI는 향후 보다 정교하고 다차원적인 평가 체계를 개발해 AI 성능을 검증할 계획이라고 밝혔다.
한편, 오픈AI 수석 경제학자 아론 차터지(Aaron Chatterji)는 "AI가 단순 반복 업무를 대신하게 되면, 인간은 더 가치 있는 작업에 집중할 수 있을 것"이라고 평가했다.
고객님만을 위한 맞춤 차량
