오래 쓸수록 더 헷갈린다…AI 에이전트 장기 신뢰성에 경고
||2026.05.29
||2026.05.29
[디지털투데이 AI리포터] AI 에이전트도 계속 사용하면 사람의 노화처럼 성능이 떨어질 수 있다는 연구 결과가 나왔다.
28일(현지시간) 온라인 매체 기가진에 따르면 텍사스대 오스틴 연구팀은 AI 에이전트의 노화를 측정하는 벤치마크 에이징벤치(AgingBench)를 공개했다.
연구팀은 AI 에이전트가 사실상 반영구적으로 운영될 수 있다는 전제가 널리 받아들여져 왔다고 봤다. 초기화 직후 측정한 벤치마크 결과가 오래 사용한 에이전트에도 그대로 적용될 수 있다고 여겨졌다는 것이다. 그러나 연구팀은 도입 뒤 AI 에이전트가 얼마나 오랫동안 신뢰성을 유지하는지는 기존 첫날 성능 평가에서 빠져 있었다고 지적했다.
AI 에이전트는 세션이 쌓일수록 사용자와의 상호작용 기록을 압축해 저장한다. 이후에는 더 커진 메모리 안에서 필요한 정보를 찾아야 하고, 업데이트 과정에서 기록된 사실이 수정되기도 한다. 연구팀은 이런 변화가 누적되면 신호 감쇠나 자기 루프 시작 같은 문제가 생길 수 있다고 설명했다.
연구팀은 AI 에이전트 노화를 4가지 메커니즘으로 분류했다. 압축은 저장 과정에서 세부 수치나 이름, 제약값처럼 등장 빈도가 낮은 정보가 사라지고 요약만 남아 이후 세부 정보를 떠올리지 못하는 현상이다. 간섭은 정보가 삭제되지 않아도 비슷한 항목이 쌓이면서 핵심 사실이 다른 정보에 묻혀 제대로 끌어오지 못하는 문제다.
개정은 예산이나 수량, 구성 변경처럼 누적 업데이트를 따라가야 하는 정보에서 중간 수정 한 번만 놓쳐도 최종 답이 틀어지는 현상이다. 유지보수는 재압축, 프롬프트 업데이트, 로그 정리, 모델 변경 같은 운영 과정이 에이전트 동작을 바꾸고 급격한 성능 저하를 일으키는 경우를 가리킨다.
연구팀이 14개 AI 모델을 7개 시나리오로 점검한 결과, AI 에이전트 노화는 단일한 형태로 나타나지 않았다. 행동 테스트는 양호한데도 사실 정확도만 떨어지거나, 같은 오류처럼 보여도 원인이 서로 다른 경우가 확인됐다. 연구팀은 신뢰성 높은 에이전트 운용을 위해서는 초기 모델 성능 강화만으로는 부족하며, 수명 평가와 메커니즘 수준의 진단, 단계별 수정이 필요하다고 밝혔다.
고객님만을 위한 맞춤 차량
