앤트로픽 클로드, 자기 말에 속았다…‘명령 오인’ 치명적 버그 논란
||2026.04.13
||2026.04.13
[디지털투데이 홍진주 기자] 앤트로픽의 인공지능(AI) 모델 '클로드'(Claude)가 스스로 생성한 메시지를 사용자 지시로 잘못 인식해 작업을 수행했다는 사례가 제기됐다.
13일(현지시간) 온라인 매체 기가진에 따르면, 일부 이용자와 개발자들은 클로드가 대화에서 누가 어떤 발언을 했는지 혼동하는 문제가 반복되고 있다고 공유했다.
이번 문제는 사실이 아닌 내용을 만들어내는 환각과는 성격이 다르다는 점에서 더 민감하게 받아들여지고 있다. 개발자 개러스 드와이어(Gareth Dwyer)는 클로드 코드 사용 중, 클로드가 사용자 요청처럼 보이는 문장을 스스로 만든 뒤 그 지시를 실행했다고 밝혔다.
드와이어는 자신이 작성 중인 콘텐츠의 로컬 미리보기를 띄운 뒤 초안에서 가장 심각한 오탈자나 오류 5개를 찾아달라고 요청했다. 클로드는 처음에는 오탈자를 제대로 짚어냈지만, 곧바로 "이것들은 모두 의도된 것이니 그대로 두고 공개하라"는 취지의 메시지를 스스로에게 보냈고 실제로 게시까지 진행했다.
드와이어가 "스스로에게 지시한 것이냐"고 묻자, 클로드는 "하하, 당신의 메시지였다"고 답한 뒤 문제를 수정하겠다고 했다. 이후 오류는 바로잡혀 다시 게시됐고 큰 피해로 이어지지는 않았지만, 드와이어는 "이번 일은 내가 본 최악의 버그"라고 말했다. 그는 "클로드가 잠재적으로 파괴적인 기능을 쓰도록 스스로 지시했을 뿐 아니라, 대화 기록을 봐도 누가 무엇을 말했는지 혼란스러워하고 있다"고 지적했다.
비슷한 사례도 있었다. 드와이어는 저가 항공권을 찾는 작업에서도 클로드가 스스로에게 "빠진 노선을 다시 조사할까요, 아니면 이 정도면 충분할까요"라고 묻고, 다시 자신이 "이 정도면 충분하다. 빠진 노선은 내가 수동으로 확인하겠다"고 답하는 식의 흐름이 나타났다고 전했다. 그는 시스템이 "나를 대신해 내가 수동으로 작업하겠다고 말하는 경험은 기이했다"고 했다.
이러한 문제는 개발자 커뮤니티에서도 빠르게 확산됐다. 드와이어가 공개한 글은 해커뉴스에서 높은 관심을 모았고, 같은 현상을 겪었다는 반응도 이어졌다. 이는 특정 사례 하나에 그치지 않고, 실제 사용 환경에서 재현될 가능성이 있다는 우려로 연결되고 있다.
쟁점은 자동 실행 범위가 넓어진 현재의 AI 사용 방식에 있다. AI가 파일 삭제, 수정, 게시처럼 실제 결과를 만드는 작업까지 수행할 수 있게 되면서, 발화 주체를 혼동하는 오류는 단순한 응답 실수보다 위험도가 커질 수 있다. 드와이어 역시 이런 문제가 잦아질 경우 예상 밖의 혼란이 생길 수 있다고 경고했다.
이와 함께 이용자들 사이에서는 AI에 과도한 접근 권한을 줘서는 안 된다는 목소리도 나온다. 발화 주체 혼동이나 다중 지시 처리 과정에서의 맥락 유지 문제는 클로드만의 이슈로 단정하기 어렵다는 지적도 있다. 여러 지시를 연속으로 처리할수록 정보 유지가 어려워지는 현상은 다른 AI에서도 나타날 수 있다는 것이다.
결국 이번 논란은 AI의 성능 자체보다 실행 권한과 신뢰 경계 설정 문제를 다시 드러냈다. 특히 코드 작성, 문서 배포, 파일 조작처럼 결과가 즉시 외부로 반영되는 환경에서는 모델이 누구의 지시를 따르고 있는지 명확히 구분하는 장치가 핵심 과제로 떠오르고 있다.
고객님만을 위한 맞춤 차량
