AI 감시하는 AI 등장…앤트로픽, 자동 감사 에이전트 공개
||2025.07.29
||2025.07.29
[디지털투데이 AI리포터] 인공지능(AI) 범람 시대, 앤트로픽이 AI 모델을 감시하는 새로운 AI 에이전트를 개발했다고 밝혔다.
28일(현지시간) 온라인 매체 기가진은 이 시스템이 AI의 숨겨진 목표나 문제 행동을 탐지하는 것을 목표로 한다고 전했다. 앤트로픽은 이를 통해 AI 개발의 가속화로 인한 감시 한계를 해결하고, 감사가 포괄적으로 이루어지고 있는지 검증할 것으로 보인다.
이번 시스템은 3가지 AI 에이전트로 구성된다. 첫 번째는 '감사 에이전트'로, AI 모델의 숨겨진 목표나 문제 행동을 탐지한다. 두 번째는 '평가 에이전트'로, 특정 행동을 정량적으로 평가해 AI의 문제 행동을 측정한다. 마지막으로 '광역 레드 팀 에이전트'는 예측되지 않은 문제 행동을 탐지하는 역할을 한다.
테스트 결과, 감사 에이전트는 AI 모델의 숨겨진 문제를 42% 확률로 탐지했으며, 평가 에이전트는 88%의 정확도로 문제 행동을 감지했다. 광역 레드 팀 에이전트는 10가지 테스트 중 7가지를 성공적으로 발견했다. 연구진은 이 시스템이 AI 내부를 분석하는 해석 가능성 도구와 결합될 때 더욱 효과적이라고 설명했다.
이 연구에는 몇 가지 한계도 존재한다. 평가는 연구자가 설계한 합성 문제에 의존하기 때문에 실제 모델에서 자연적으로 발생하는 문제와 다를 수 있다. 또한, 에이전트는 인간 감사인과 다른 행동을 보일 수 있으며, 인간을 완벽하게 대신할 수는 없다.
앤트로픽의 자동 감사 시스템은 AI의 문제 행동을 사전에 차단하는 새로운 접근법으로 주목받고 있다. 향후 AI 안전성 확보를 위한 핵심 기술로 발전할지 전망이 주목된다.
New Anthropic research: Building and evaluating alignment auditing agents.
— Anthropic (@AnthropicAI) July 24, 2025
We developed three AI agents to autonomously complete alignment auditing tasks.
In testing, our agents successfully uncovered hidden goals, built safety evaluations, and surfaced concerning behaviors. pic.twitter.com/HMQhMaA4v0
고객님만을 위한 맞춤 차량