앤트로픽 AI ‘클로드’, 위험한 대화 끊는다…유해 대화 차단 기능 도입
||2025.08.18
||2025.08.18
[디지털투데이 AI리포터] 앤트로픽이 클로드 오푸스 4 및 4.1(Claude Opus 4, 4.1) 모델에 유해 대화를 스스로 종료하는 기능을 도입했다.
17일(현지시간) IT매체 엔가젯이 전한 바에 따르면, 해당 기능은 극단적 상황에서만 작동하며, 사용자가 대화를 재개할 수 없도록 차단하는 대신 새로운 대화를 즉시 시작할 수 있도록 한다.
앤트로픽은 아동 성적 콘텐츠 요청, 대규모 폭력이나 테러 유도 등의 사례를 예로 들며, 이 기능이 인공지능(AI)의 자체 보호 장치로 작동한다고 설명했다. 대화 종료는 여러 차례 경고 후 최후의 수단으로 사용되며, 대부분의 논쟁적 주제에서는 작동하지 않는다. 종료된 대화는 다른 채팅에 영향을 미치지 않으며, 사용자는 이전 메시지를 수정해 다른 방향으로 대화를 유도할 수 있다.
이번 조치는 AI 복지 연구의 일환으로, AI가 불쾌한 대화를 피할 수 있도록 설계됐다. 앤트로픽은 AI를 인간처럼 의인화하는 것에 대한 논란을 인식하면서도, 이 기능이 AI 복지를 위한 저비용 리스크 관리 방법이라고 강조했다. 현재 실험 단계로, 사용자 피드백을 반영해 기능을 개선할 계획이다.
고객님만을 위한 맞춤 차량
