구글 AI, 철자 틀린다…검색 신뢰성 흔들

구글 AI 검색이 기본적인 질문에도 오답을 알려주고 있다. [사진: 구글]

[디지털투데이 홍경민 인턴기자] 구글이 AI를 검색 전면에 내세운 개편을 단행했지만, 기초적인 철자 오류와 정보 처리 문제가 잇따라 드러나며 신뢰성 논란에 휩싸였다.

27일(현지시간) IT매체 테크크런치에 따르면, 구글 AI 오버뷰는 'Google'의 철자를 잘못 인식해 P 개수를 틀리게 답하거나 'poop'의 철자 구성도 잘못 설명하는 등 기본적인 문자 처리에서 오류를 보였다. 또한 'journalism'의 철자를 'j-o-u-r-n-a-d-i-s-m'으로 잘못 표기했고, 미국 대통령 성의 철자에서도 P 개수를 혼동한 채 't-r-p-u-m'으로 잘못 표기하는 등 기초적인 언어 처리 문제를 드러냈다.

이와 함께 단어 검색 과정에서도 오류가 발생했다. 구글 AI 오버뷰는 원래 단어를 검색할 경우 해당 단어의 사전적 의미를 제공하는 것이 일반적인 동작이다. 하지만 'disregard'를 검색했을 때는 사전적 정의 대신 챗봇처럼 "알겠습니다. 새로운 질문이 있으면 알려주세요"라는 문장을 출력하는 오류가 나타났다.

이에 대해 구글은 단어 내 글자 수 세기는 LLM의 알려진 과제이며, 현재 수정 작업을 진행 중이라고 설명했다.

이 같은 문제는 단순 기능 오류를 넘어 AI 검색 기능 전반의 신뢰성 논란으로 확장되고 있다. 검색 서비스는 기본적으로 정확한 정보 제공을 전제로 하지만, AI 요약 기능이 개입하면서 답변의 일관성과 신뢰성이 흔들릴 경우 이용자 입장에서는 결과 자체를 어디까지 믿어야 할지 혼란이 커질 수 있다는 지적이 나온다.

이처럼 기본적인 정보 제공 기능에서까지 혼선이 나타나면서 문제의 원인에 대한 분석도 이어지고 있다. 전문가들은 이러한 현상이 대규모 언어모델(LLM)의 구조적 한계와 관련이 있다고 본다. LLM은 텍스트를 인간처럼 문자 단위로 읽는 것이 아니라 토큰 단위로 분해한 뒤 수치화해 처리하는 방식으로 작동한다. 이에 따라 언어 모델에서 단어의 경계를 명확히 정의하기 어렵고, 어떤 방식으로 토큰을 구성하더라도 완벽한 문자 단위 처리는 쉽지 않다는 분석이 나온다.

노스이스턴대 박사과정생 셰리던 포이흐트(Sheridan Feucht)는 "완벽한 토크나이저는 존재하지 않을 것"이라며 모델이 텍스트를 더 작은 단위로 쪼개려는 경향 자체가 구조적으로 내재돼 있다고 지적했다.

다만 이러한 한계가 곧바로 LLM의 전체 성능 문제로 이어지는 것은 아니라는 시각도 있다. 코딩 생성이나 복잡한 문제 해결 등 다른 영역에서는 여전히 높은 효용을 보이고 있기 때문이다. 그럼에도 이번 사례는 AI가 아무리 발전하더라도 출력 결과를 무조건 신뢰해서는 안 된다는 점을 다시 한번 보여주고 있다.

Google is revamping its entire search engine to this btw pic.twitter.com/PIR4llFhiV
— mersomas (@mersomas) May 27, 2026