AI 모델로 ‘자전거 탄 펠리컨’ 그렸더니…승자는 클로드·제미나이
||2025.06.10
||2025.06.10
[디지털투데이 홍진주 기자] 인공지능(AI) 모델의 성능을 평가하는 새로운 벤치마크가 등장했다. 엔지니어 사이먼 윌리슨(Simon Willison)이 제안한 '자전거 탄 펠리컨' 그리기 테스트가 그것이다. 9일(현지시간) 온라인 매체 기가진은 미국 샌프란시스코에서 열린 AI 엔지니어 월드 페어에서 공개된 윌리슨의 최신 분석 결과를 전했다.
가장 먼저 발표된 새로운 성과는 지난해 11월 출시된 아마존의 AI 모델 노바(Nova)다.
윌리슨은 아마존의 세 가지 텍스트 생성 모델인 '노바 마이크로'(Nova Micro), '노바 라이트'(Nova Lite), '노바 프로'(Nova Pro)에게 자전거를 탄 펠리컨을 그리게 한 결과, 결과물이 만족스럽지 않았다고 밝혔다. 실제로 노바가 생성한 이미지는 어떤 그림을 나타내는 건지 쉽게 알아볼 수 없는 수준이었다.
메타의 AI 모델 역시 만족할만한 성과를 내지 못했다.
메타 '라마 3.3 70B'(Llama 3.3 70B)은 '라마 3.1 405B'(Llama 3.1 405B)와 달리 자전거와 펠리컨을 표현하는 데 실패했다. 윌리슨은 라마 3.3 70B가 자전거도 아니고 펠리컨도 아닌 무언가를 그리는 데 그쳐 라마 3.1 405B의 성능과 상당한 차이를 보였다고 평가했다. 라마 3.3은 700억 개의 매개변수를 가진 모델로, 기존의 라마 3.1 405B 모델과 동일한 성능을 유지하면서도 훨씬 낮은 비용으로 운용 가능하다는 점에서 큰 주목을 받은 바 있다.
또한 오픈AI의 GPT 4.1 시리즈인 'GPT-4.1 미니'(GPT-4.1 mini)와 'GPT-4.1 나노'(GPT-4.1 nano) 모델 역시 다소 불안정한 형태의 자전거 이미지를 생성해 아쉬운 결과를 보였다.
반면 딥시크의 약진은 눈에 띄었다. 윌리슨은 딥시크-R1의 펠리컨 묘사력이 더욱 향상되었다며, 자전거 역시 한눈에 알아볼 수 있도록 의미에 맞는 이미지를 출력했다고 평가했다.
'자전거 탄 펠리컨'을 완벽히 그려낸 것은 앤트로픽의 클로드 3.7 소넷(Claude 3.7 Sonnet)이었다. 이 모델이 생성한 그림 속 펠리컨과 자전거의 모양은 다른 어떤 모델이 생성한 것보다 높은 정확도를 보이고 있다.
마지막으로 '제미나이2.5 프로 프리뷰-05-06'(gemini-2.5-pro-preview-05-06)은 흠잡을 곳 없는 완벽한 펠리컨을 출력하며 뛰어난 성과를 보였다고 윌리슨은 평가했다. 제미나이2.5 프로 프리뷰-05-06는 앞서 웹개발 평가기관 웹데브 아레나에서 시각적 완성도와 기능성 평가에서 1499.95점을 받아 전체 1위를 차지한 바 있다. 이는 클로드 3.7 소넷보다 약 17% 높은 점수이며, 이전 제미나이보다도 성능이 크게 향상된 수준이다.
고객님만을 위한 맞춤 차량