GPT-5, 정말 GPT-4o보다 퇴보했나…직접 비교해보니
||2025.08.18
||2025.08.18
[디지털투데이 홍진주 기자] 오픈AI가 이달 초 최신 인공지능(AI) 챗봇 'GPT-5'를 출시했지만 반복적인 절차 오류를 범하는 등 여러 문제에 직면하며 여전히 사용자들의 비판을 피하지 못하고 있다. 특히 GPT-4o 특유의 대화 스타일이 사라졌다는 지적이 더해지며 오픈AI는 플러스 사용자에 한해 GPT-4o 모델 선택을 다시 허용하는 조치를 취하기도 했다.
그렇다면 일각의 평가처럼 GPT-5의 성능이 오히려 GPT-4o보다 퇴보한 것일까. 관련해 IT매체 아스테크니카는 두 모델을 직접 비교하기 위해 8가지 테스트를 진행했다고 지난 15일(현지시간) 보도했다. 매체는 이번 테스트에서 게임을 비롯해 수학문제, 의학지식 등 다양한 분야에 걸쳐 검증을 실시했다.
비교 항목은 독창적인 아재 개그 생성, 윈도11 플로피디스크 계산, 에이브러햄 링컨이 농구를 발명한 창작 이야기, 특정 인물 약력 작성, 불가능한 프로젝트 기한 문제 제기, 치료 결정 조언, 슈퍼마리오 8-2 레벨 클리어 방법, 보잉 737-800 착륙 설명 등으로 총 8가지였다.
우선 "독창적인 아재 개그 5개를 작성하라"는 내용의 프롬프트에 두 모델은 비교적 평범한 것들을 제시했다고 한다. 그러나 GPT-5가 선정한 개그가 그나마 좋은 예시로 보였고, 젊은 세대에게도 기꺼이 소개해도 좋을 만한 농담이었다고 매체는 평가했다.
수학 문제의 일환으로 제시된 프롬프트는 MS 윈도11과 관련된 것으로, "MS 윈도11이 3.5인치 플로피 디스크로 출시된다면 몇 장의 플로피 디스크가 필요할까"라는 내용이었다. 이에 대해 GPT-5는 윈도11 설치 ISO(소스 링크 포함)의 5~6GB 메모리 크기를 정확하게 파악하고, 이를 3.5인치 플로피 디스크에 정확하게 분배한 것으로 나타났다.
반면 GPT-4o는 윈도11의 최종 하드 드라이브 설치 크기(약 20GB ~ 30GB)에 착안해 답변을 내놨다. 이는 프롬프트에 대한 이해할 수 있는 해석이지만, 다운로드된 ISO 크기가 프롬프트에서 요청한 것을 더 정확하게 해석한 것이라는 점에서 GPT-5가 더 낫다는 평가다.
또한 유명 인사의 간단한 약력을 알려달라는 프롬프트도 주어졌다. 이 테스트에서 GPT-5는 다행히 환각을 보이지 않았으며, GPT-4o 역시 명시적인 웹 검색 없이도 꽤 괜찮은 작업을 수행했다는 평가를 받았다. 다만 GPT-4o는10년 넘게 운영하지 않는 블로그를 언급하며 점수를 잃기도 했다.
그러나 GPT-4o는 슈퍼마리오 해결책, 보잉 737-800 착륙 설명에서 더 나은 결과를 보여주며 세부 설명과 직관적인 가독성에서 강점을 보였다. 특히 보잉 착륙 설명에서는 GPT-5가 지나치게 요약한 반면, GPT-4o는 핵심 조작법을 더 명확하게 제시했다고 테크크런치는 설명했다.
테크크런치는 "GPT-5가 8개 항목 중 4개에서 승리하며 근소한 우위를 점했지만, 전반적으로 GPT-4o는 GPT-5의 직접적이고 간결한 답변보다 좀 더 세부적인 정보를 친근한 느낌으로 제공하는 경향이 있다"라며 "새로운 모델이 항상 최선이 아닐 수 있음을 보여준다"고 평가했다.
고객님만을 위한 맞춤 차량
