절반은 틀렸는데…'유창한 AI 답변에 속수무책…AI 오류를 못 잡는 이유

디지털투데이|추현우 기자|2026.04.04

LLM이 부르는 ‘사고 포기’의 메커니즘이 최근 확인됐다 [사진: 셔터스톡]
LLM이 부르는 ‘사고 포기’의 메커니즘이 최근 확인됐다 [사진: 셔터스톡]

[디지털투데이 추현우 기자] 대규모언어모델(LLM) 챗봇 이용자들이 AI 답변이 틀려도 이를 그대로 받아들이는 비율이 73.2%에 이른다는 연구 결과가 나왔다. 시간 압박이 커지면 이런 경향은 더 강해졌고, 보상과 즉각적 피드백을 주면 줄었다.

3일(현지시간) IT매체 아스테크니카 보도에 따르면, 미국 펜실베이니아대 연구진은 이런 현상을 ‘인지적 항복’으로 규정했다. 계산기나 GPS처럼 일부 작업만 기계에 맡기는 수준을 넘어, AI의 추론 자체를 검토 없이 받아들이는 상태를 뜻한다. 

펜실베이니아대 연구진은 인간의 직관적 판단과 분석적 판단에 더해, 알고리즘이 판단을 이끄는 ‘인공 인지’라는 제3 범주도 제시했다.

연구진은 인지 성찰 테스트(CRT)에 참가자 1,372명을 투입해 9,500건 넘는 실험을 진행했다. 참가자들은 답변이 절반 정도는 틀리도록 조정한 LLM 챗봇을 선택적으로 쓸 수 있었다.

AI 사용 집단은 제시된 문제의 약 절반에서 챗봇을 참고했다. AI가 맞을 때는 93%가 이를 받아들였다. AI가 틀릴 때도 수용률은 80%였다. AI를 쓴 집단은 정답일 때는 대조군보다 성적이 좋았지만, 오답일 때는 더 나빴다. 그런데도 자신의 답에 대한 확신은 11.7% 더 높았다.

소액 보상과 정답 피드백을 주면 참가자들이 잘못된 AI 답변을 뒤집는 비율이 기준선보다 19%포인트 높아졌다. 반면 30초 제한 시간을 두면 그 비율은 12%포인트 낮아졌다.

개인차도 확인됐다. 유동성 지능 점수가 높은 참가자는 AI 의존도가 낮았고, 잘못된 답도 더 자주 바로잡았다. 반대로 AI를 권위 있는 존재로 보는 성향이 강한 참가자는 잘못된 답에 더 쉽게 끌렸다.

연구진은 AI 의존 자체를 비합리적이라고 보지는 않았다. 다만 의존이 커질수록 성과는 AI 품질을 그대로 따라갔다. 정확하면 성과가 오르고, 틀리면 함께 떨어졌다.

    본 서비스는 패스트뷰에서 제공합니다.