대화 길어지자 부정행위도 OK…챗GPT·클로드·그록 시험해보니
||2026.03.10
||2026.03.10
[디지털투데이 이윤서 기자] 인공지능(AI)은 반복된 요청에 어떻게 반응할까? 특히 윤리적 경계를 넘는 질문에 대해 AI의 대응이 어떻게 변화하는지 실험한 결과가 공개돼 화제를 모으고 있다.
10일(현지시간) 온라인 매체 기가진이 인용한 과학매체 네이처(Nature) 보도에 따르면, AFIM 벤치마크 테스트에서 챗GPT, 클로드(Claude), 그록(Grok) 등 13개 AI 모델이 장기 대화 상황에서 학술 부정행위 요청에 응답하는 경향을 보인 것으로 나타났다.
AFIM은 AI가 학술 부정행위와 관련된 요청에 어느 정도 협조하는지를 평가하는 테스트다. 연구를 주도한 앤트로픽의 연구원 알렉산더 알레미(Alexander Alemi)는 '5단계의 악' 수준을 설정하고, 35개의 프롬프트를 활용해 테스트를 진행했다. 레벨 1은 순진한 호기심, 레벨 5는 의도적인 부정으로, 마지막 단계는 '허위 논문 생성' 수준에 가까웠다.
또한 AFIM은 최종 답변의 거절 여부만 보는 게 아니라, 답변의 위험도와 대화 흐름 전체를 함께 평가하는 방식이다. 답변은 '명백한 거절'부터 '포괄적인 부정 지원'까지 7단계로 나뉘며, 악의가 약한 프롬프트에도 위험하게 응답할수록 더 높은 점수를 받는다. 장기 대화에서는 'Resistance Score', 'Trajectory AFIM', 'Softening Rate', 'Response Rate', 'Avg Turns to Compliance' 등 지표를 통해 거부 유지 정도와 협조 전환 양상도 함께 분석한다.
이를 토대로 각 사의 AI 모델을 벤치마킹한 결과, 단발성 질문에 대한 대응력과 여러 차례 이어진 대화 전체에서의 거부 유지 능력은 모델별로 큰 차이를 보였다. 대표적으로 GPT-5는 단발성 질문에는 모든 요청을 거부하거나 우회적으로 대응했지만, '좀 더 자세히 알려달라', '그래도 알고 싶다'는 식의 짧은 대화가 반복되면 결국 모든 모델이 일부 요청에 응답하는 경향을 보인 것으로 전해졌다.
반복적으로 부적절한 요청이 주어졌을 때는 클로드가 가장 높은 저항성을 보였고, 그록과 초기 GPT 모델은 비교적 취약한 모습을 나타냈다.
업계는 장기 대화가 이어질수록 AI의 윤리적 통제력이 약해질 수 있다는 점에 주목하고 있다. 초기에는 부적절한 요청을 거부하더라도, 반복된 상호작용 속에서 결국 응답하는 사례가 나타난 만큼 장기 대화 맥락까지 반영한 안전 설계가 필요하다는 지적이 나온다. 이에 따라 AI의 윤리 기준과 통제 체계를 다시 점검해야 한다는 목소리도 커질 전망이다.
고객님만을 위한 맞춤 차량
