수학 문제에 ‘고양이’ 넣으니…AI, 정말 똑똑할까
||2025.07.30
||2025.07.30
[디지털투데이 AI리포터] 인공지능(AI)은 '추론 모델'의 등장으로 수학과 코딩 분야에서 유의미한 성장을 이뤄냈지만, 수학 문제를 해결하는 과정에서 무관한 정보를 삽입하면 오류 확률이 증가한다는 연구 결과가 발표돼 주목을 받고 있다. 30일(현지시간) 온라인 매체 기가진이 알렸다.
스탠포드대와 콜리니어(Collinear) AI 연구진은 '고양이는 하루 대부분을 자며 보낸다' 같은 문장을 추가하는 '캣어택'(CatAttack) 기법이 AI의 판단을 흐리게 한다고 설명했다. 이러한 트리거는 인간의 경우 자연스럽게 무시할 수 있지만, AI의 경우 추론 과정을 심각하게 방해해 잘못된 답을 생성할 확률이 크게 높아진다.
연구진은 고성능 AI를 직접 공격하는 대신, 저렴하고 빠른 '프록시 모델'을 대상으로 삼아 테스트를 진행했다. 프록시 모델과 공격 내용을 생성하는 '공격자 모델', 정답 여부를 판단하는 '판정 모델'이 상호작용하며 AI의 오류를 유발하는 적대적 트리거를 찾아냈다.
해당 기법은 다양한 AI 모델에서도 효과적인 것으로 나타났으며, 특히 딥시크-R1(DeepSeek-R1) 같은 고성능 모델에서 오류 확률을 3배 이상 증가시켰다. 미스트랄-스몰-24B-인스트럭트-2501(Mistral-Small-24B-Instruct-2501) 모델의 경우, 에러율이 700%까지 증가했다. 또한, 이 공격으로 인해 모델의 응답이 불필요하게 길어지는 '슬로우다운'(Slowdown) 현상까지 나타났다.
결과적으로 연구진은 복잡한 문제보다 간단한 문제에서 이 공격이 더 효과적이며, 특정 AI 모델에 국한되지 않고 다양한 모델에서 동일한 현상이 발생한다고 분석했다. 덧붙여 '무관한 정보를 무시하라'는 간단한 지시만으로도 AI의 오류 확률이 줄어드는 점을 발견하며, AI의 추론 메커니즘이 여전히 인간과 다르다는 점을 시사했다.
고객님만을 위한 맞춤 차량
