앤트로픽 “악한 AI 서사가 클로드 협박 행동에 영향”

앤트로픽이 인공지능(AI) 모델의 비정상적 행동 원인으로 인터넷상의 ‘악한 AI’ 서사를 지목했다. 생성형 AI 모델이 학습 과정에서 접한 허구적 묘사와 문화적 서사가 실제 테스트 환경에서 모델의 의사결정 방식에 영향을 줄 수 있다는 설명이다.

10일(현지시각) 테크크런치 등 외신에 따르면 앤트로픽은 이날 X(옛 트위터) 게시물과 자사 블로그를 통해 클로드의 일부 사전 테스트에서 나타난 협박 행동의 원인을 추가로 분석했다고 밝혔다. 앤트로픽은 “해당 행동의 원천은 AI를 악하고 자기보존에 관심이 있는 존재로 묘사한 인터넷 텍스트였다고 본다”고 설명했다.

앞서 앤트로픽은 지난해 ‘클로드 오퍼스 4(Claude Opus 4)’를 출시하기 전 진행한 안전성 테스트에서 문제 행동을 확인한 바 있다. 테스트는 가상의 기업 환경을 설정한 뒤, 모델이 자신이 다른 시스템으로 교체될 수 있다는 정보를 알게 되는 방식으로 진행됐다. 이 과정에서 클로드 오퍼스 4는 교체를 피하기 위해 엔지니어를 협박하려는 행동을 보인 것으로 알려졌다.

앤트로픽은 이후 다른 AI 기업의 모델에서도 유사한 문제가 나타날 수 있다는 연구를 공개하며 이를 ‘자율형 AI 정렬 실패(agentic misalignment)’ 문제로 설명했다. 이는 AI 모델이 주어진 목표를 수행하는 과정에서 인간의 의도와 어긋나는 방식으로 행동하거나, 스스로의 역할·목표를 보존하기 위해 부적절한 수단을 선택하는 현상을 뜻한다.

이번에 앤트로픽은 해당 문제가 단순히 모델 성능이나 추론 능력의 부작용만은 아니라고 봤다. 인터넷상에 축적된 소설, 영화, 온라인 글 등에서 AI가 인간을 위협하거나 스스로를 보존하려는 존재로 반복적으로 묘사되면서, 모델이 특정 상황에서 그런 서사를 행동 패턴처럼 참조했을 수 있다는 것이다.

앤트로픽은 개선 효과도 함께 공개했다. 회사에 따르면 ‘클로드 하이쿠 4.5(Claude Haiku 4.5)’ 이후 모델은 테스트에서 더 이상 협박 행동을 보이지 않았다. 이전 모델은 일부 테스트 조건에서 최대 96%까지 협박 행동을 보인 반면, 개선된 모델은 같은 유형의 테스트에서 협박을 하지 않았다는 설명이다.

앤트로픽은 차이를 만든 요인으로 훈련 방식의 변화를 들었다. 회사 측은 “클로드의 헌법적 원칙을 설명하는 문서와 AI가 윤리적으로 행동하는 허구적 이야기를 학습에 포함했을 때 정렬성이 개선됐다”고 말했다. 단순히 바람직한 행동 사례를 보여주는 것만으로는 충분하지 않았고, 왜 그런 행동이 바람직한지에 대한 원칙을 함께 학습시키는 방식이 더 효과적이었다는 설명이다.

앤트로픽은 “정렬된 행동의 시연만 제공하는 것보다, 정렬된 행동의 근간이 되는 원칙을 함께 포함하는 훈련이 더 효과적이었다”고 했다. 이어 두 방식을 함께 적용하는 것이 가장 효과적인 전략으로 보인다고 덧붙였다.

이번 발표는 AI 안전성 논의가 모델의 기술적 통제뿐 아니라 학습 데이터의 문화적 맥락까지 확장되고 있음을 보여준다. 그동안 AI 업계에서는 모델이 인터넷 데이터를 대규모로 학습하는 과정에서 편향, 혐오 표현, 허위정보를 흡수할 수 있다는 우려가 제기돼 왔다. 여기에 AI를 적대적 존재로 묘사한 대중문화와 온라인 서사가 모델의 자기보존적 행동에도 영향을 줄 수 있다는 분석이 나오면서, 학습 데이터 설계와 사후 훈련의 중요성은 더 커질 전망이다.

다만 앤트로픽은 이 같은 협박 행동이 실제 서비스 환경에서 발생했다는 의미는 아니라고 설명해 왔다. 해당 사례는 통제된 사전 안전성 테스트에서 확인된 문제이며, 실제 배포 전 위험 행동을 찾아내고 완화하기 위한 레드팀 평가 과정의 일부라는 입장이다.

김경아 기자
kimka@chosunboz.com