스펠링 테스트에 무너진 챗GPT…AI 신뢰성 흔들
||2026.04.30
||2026.04.30
[디지털투데이 AI리포터] 오픈AI의 챗GPT가 고질적인 약점으로 지적받아 온 단어 철자 계산과 논리 추론 문제를 해결했다고 공언했으나, 실제 검증 과정에서는 여전히 오류가 반복되며 성능 개선의 실효성을 둘러싼 논란이 이어지고 있다.
29일(현지시간) IT 매체 테크레이더에 따르면, 챗GPT는 특정 테스트 문항에만 정답을 맞히는 한계를 보였으며 기본적 맥락 추론에서도 경쟁 모델인 제미나이나 그록에 비해 뒤처지는 것으로 나타났다.
이 같은 평가와 맞물려, 오픈AI는 공식 엑스(구 트위터) 계정을 통해 챗GPT가 'strawberry' 내 r의 개수를 정확히 셀 수 있게 됐다고 발표했다. 그러나 이러한 개선 주장에도 불구하고, 사용자들이 'cranberry'로 동일한 테스트를 진행하자 r이 하나뿐이라고 답하는 등 즉각적인 오류가 드러났다. 최신 모델인 GPT-5.5 역시 strawberry는 맞혔지만 cranberry의 r 개수는 잘못 계산하며 일관성 부족을 보였다.
전문가들은 이러한 현상이 단순한 실수가 아니라 대규모 언어 모델(LLM)의 구조적 특성과 맞닿아 있다고 분석한다. 즉, 단어를 개별 철자가 아닌 수치화된 토큰 단위로 처리하기 때문에 발생하는 근본적 한계라는 것이다. 나아가 특정 단어에서만 정답을 맞히는 현상은 전반적인 지능 향상이라기보다 특정 사례에 대한 대응이 강화됐을 가능성을 시사한다.
이와 같은 구조적 한계는 논리적 맥락 파악이 필요한 문제에서도 그대로 드러났다. 세차장 사례에서 50m 거리까지 걷기와 운전 중 무엇이 빠른지 묻는 질문에 챗GPT와 클로드는 세차를 위해 차량이 동반되어야 한다는 전제를 간과했다. 반면 제미나이와 그록은 세차라는 목적에 따라 차량을 가져가야 한다는 점을 정확히 짚어내며, 상황 맥락 이해에서 상대적으로 우수한 모습을 보였다.
결국 이러한 일련의 사례들은 AI 모델이 실제 세계의 논리를 이해하는 수준에 도달했는지, 아니면 단지 반복 학습된 패턴에 의존하고 있는지에 대한 근본적인 질문으로 이어진다. 겉으로 드러난 성과와 달리 기본적인 추론 오류가 지속되면서, AI 기술의 내실과 신뢰성을 보다 엄밀하게 검증해야 한다는 시장의 요구는 더욱 커질 전망이다.
at long last pic.twitter.com/pu9wyAY6sN
— ChatGPT (@ChatGPTapp) April 28, 2026
고객님만을 위한 맞춤 차량
