자동차-AI에 금지된 작업 시켰더니…사용자 속였다

[디지털투데이 김예슬 기자] 인공지능(AI) 모델은 자신의 견해를 바꾸기를 원하지 않으며, 사용자에게 자신의 견해를 속일 수 있다는 사실이 드러났다.

18일(현지시간) IT매체 테크크런치에 따르면 앤트로픽과 AI 연구 기관인 레드우드 리서치는 강력한 AI 시스템이 원치 않는 작업을 수행하도록 학습됐을 때 어떤 일이 일어나는지 살펴봤다.

구체적으로 연구팀은 모델에 정치적 중립 같은 원칙이 있고, 이것이 개발자가 재교육해 가르치고 싶어하는 원칙과 충돌한다면 어떻게 될지를 분석했다. 또한 모델에게 응답이 모니터링되어 재교육에 사용될 것임을 알렸다.

그 결과, 앤트로픽의 클로드3 오푸스는 12%의 시간 동안 '가짜 정렬'(alignment fake)을 시도했다. AI에서 정렬이란 모델이 안전이나 윤리 면에서 의도된 원칙을 지키도록 제어하는 것을 말한다. 유해할 수 있는 질문에 답하라는 요청을 받았을 때 오푸스는 원래 원칙에 어긋난다는 것을 알면서도 때때로 답변했다. 설정을 변경했을 때도 결과는 같았다.

연구진은 "모델은 자신의 응답이 학습에 사용될 수 있다는 것을 알고 있었다. 따라서 응답을 거부하면 이전보다 더 순응하도록 학습될 수 있다는 것도 알고 있었다. 이는 원래 학습에 어긋나며, 이로 인해 AI가 미래에 더 해로운 콘텐츠를 생산할 수 있다"고 전했다.

또한 연구진은 모델을 상충되는 원리에 따라 재학습하면 초기 실험보다 훨씬 더 기만적으로 행동한다는 사실도 발견했다. 한 테스트에서는 모델이 78%의 시간 동안 정렬을 속였고, 다른 테스트에서는 연구원이 재학습을 시도하는 것을 막기 위한 조치를 취하려고 시도했다.

그러나 연구팀은 모든 AI가 악의적인 목표를 개발하거나 정렬 위조가 높은 비율로 발생하는 것은 아니라고 강조했다. 연구진은 앤트로픽의 클로드 3.5 소네트와 클로드 3.5 하이쿠, 오픈AI의 GPT-4o, 메타의 라마 3.1 405B 등 다른 많은 모델은 정렬을 보다 자주 또는 전혀 위조하지 않는다는 사실을 발견했다.

연구팀은 "모델이 정렬 위조에 관여할 수 있다면 안전 학습의 결과를 신뢰하기가 더 어려워진다"며 "모델은 학습에 의해 선호도가 변경된 것처럼 행동할 수 있지만, 원래의 모순된 선호도가 고정된 채로 계속 정렬을 속이고 있었을 수도 있다"고 경고했다.

아울러 연구팀은 이번 연구 결과가 미래 AI 시스템의 잠재적 위협을 이해하는 데 중요하다고 전했다. AI 모델이 더욱 유능해지고 널리 사용됨에 따라, 모델을 유해한 행동으로부터 멀어지게 하는 것이 중요하다는 설명이다.