구글 AI 오버뷰, 10번 중 1번 오답…검색 규모에 하루 수천만 건 수준
||2026.04.08
||2026.04.08
[디지털투데이 홍진주 기자] 구글 검색 상단에 노출되는 ‘AI 오버뷰'(AI Overviews)의 정확도가 약 90% 수준으로 평가됐지만, 나머지 오답 비율이 실제 검색 규모와 결합될 경우 시간당 수백 만, 하루 수천만 건의 잘못된 답변이 생성될 수 있다는 분석이 제기됐다.
7일(현지시간) IT 매체 아스테크니카는 뉴욕타임스(NYT)의 분석을 인용해 AI 오버뷰의 사실성 논란과 이에 대한 구글의 입장을 전했다.
뉴욕타임스는 AI 스타트업 오우미(Oumi)와 함께 '심플QA'(SimpleQA) 벤치마크를 활용해 AI 오버뷰의 정확도를 점검했다. 심플QA는 4000개 이상의 검증 가능한 질문으로 구성된 평가 도구로, 생성형 AI의 사실성 여부를 측정하는 데 사용된다.
평가 결과, 구글의 AI 모델이 제미나이 2.5 버전이던 시점에는 약 85%의 정확도를 보였으며, 이후 제미나이 3 업데이트 이후에는 91% 수준까지 개선된 것으로 나타났다. 다만 이는 여전히 "10개 중 1개는 틀린다"는 의미로, 전체 검색 트래픽에 적용하면 상당한 규모의 오답이 발생할 수 있다는 지적이다.
실제 오답 사례도 확인됐다. 가수 밥 말리(Bob Marley)의 옛집이 박물관으로 전환된 시점을 묻는 질문에서 AI 오버뷰는 여러 출처를 제시했지만, 일부는 관련 정보를 담고 있지 않았고 상충된 정보 중 잘못된 연도를 선택했다. 또 첼리스트 요요 마(Yo-Yo Ma)의 ‘클래식 음악 명예의 전당’ 헌액 여부를 묻는 질문에서는 관련 사이트를 인용하면서도 "해당 명예의 전당은 존재하지 않는다"는 모순된 답변을 내놓았다.
이에 대해 구글은 벤치마크 자체의 신뢰성에 문제가 있다고 맞섰다. 구글 대변인 네드 아드리언스는 심플QA에 부정확한 데이터가 포함돼 있다고 주장하며, 내부적으로는 보다 엄격히 검증된 '심플QA 베리파이드'(SimpleQA Verified)와 유사한 평가 방식을 활용하고 있다고 밝혔다. 그는 "이번 연구에는 심각한 결함이 있으며, 실제 사용자 검색 패턴을 반영하지 않는다"고 반박했다.
매체는 생성형 AI 평가 자체가 구조적으로 어렵다는 점도 함께 짚었다. 동일한 질문이라도 반복 실행 시 결과가 달라질 수 있고, 평가에 사용된 도구 역시 오류를 낼 가능성이 있다는 것이다. 또한 AI 오버뷰가 단일 모델이 아닌 복수 모델 체계로 작동한다는 점도 변수로 지목됐다. 구글은 질의 유형에 따라 적합한 모델을 선택하며, 경우에 따라 고성능 모델 대신 속도와 비용 효율을 고려한 경량 모델을 활용한다고 설명했다.
결국 논쟁의 핵심은 검색 방식 변화에 있다. 기존 ‘파란 링크’ 중심의 검색과 달리, 요약된 AI 답변이 상단에 배치되면서 사용자가 오답을 그대로 받아들일 위험이 커졌다는 지적이다. 이에 대해 구글 역시 AI 오버뷰 하단에 "AI는 실수할 수 있으므로 답변을 재확인하라"는 안내 문구를 표시하고 있다.
고객님만을 위한 맞춤 차량
