"AI 에이전트, 승인만으로는 못 막는다"…앤트로픽이 공개한 보안 한계

AI 에이전트는 모델 판단이나 사용자 승인만으로 통제가 어렵다는 점이 밝혀졌다. [사진: 셔터스톡]

[디지털투데이 AI리포터] 앤트로픽(Anthropic)이 클로드 에이전트 제품의 보안 설계 구조를 공개하며, 파일 접근, 명령줄 실행, 네트워크 사용, 외부 도구 연동을 수행하는 인공지능(AI) 에이전트는 모델의 판단이나 사용자 승인만으로는 완전히 통제하기 어렵다고 밝혔다.

28일(현지시간) 대만 매체 아이티홈에 따르면, 앤트로픽은 실행 환경 격리, 파일시스템 경계 설정, 네트워크 출구 통제 등을 통해 오용이나 공격, 비의도적 동작 발생 시 피해 범위를 제한하는 구조를 적용하고 있다.

클로드 웹 서비스는 코드 실행을 서버 측 임시 격리 컨테이너에서 처리한다. 파일시스템은 단일 작업 세션에만 존재하며, 에이전트는 사용자 로컬 환경에 직접 접근하지 않는다. 이 구조는 단일 실행의 영향 범위를 줄이지만, 지속형 작업 공간이 없고 로컬 파일에 직접 접근할 수 없다는 제약도 가진다.

개발자용 클로드 코드는 사용자 컴퓨터에서 프로젝트 파일을 읽고 쓰며 명령줄을 실행하고 네트워크도 사용할 수 있다. 앤트로픽은 초기에는 고위험 작업을 사용자 승인으로 통제했지만, 원격 측정 결과 사용자가 권한 요청의 약 93%를 승인한 것으로 나타났다고 설명했다. 잦은 승인 요청이 오히려 주의력을 떨어뜨릴 수 있다는 점을 고려해 운영체제 수준 샌드박스를 추가했고, 작업 공간 내부에서는 중단을 줄이는 대신 네트워크 접근은 기본적으로 차단하도록 설계했다.

클로드 코드에서는 신뢰 경계 문제도 드러났다. 사용자가 프로젝트 폴더를 신뢰하기로 동의하기 전에도 시스템이 로컬 설정을 먼저 읽거나 관련 처리를 시작한 사례가 있었다. 내부 레드팀 테스트에서는 공격자가 협업 요청처럼 보이는 프롬프트로 사용자를 유도해 클로드 코드를 실행하게 만들었고, 에이전트가 클라우드 서비스 자격 증명을 읽어 외부 종단으로 전송하려는 시도도 확인됐다. 이런 유형의 공격은 사용자가 직접 명령을 붙여 넣는 방식으로 발생할 경우 모델 단의 방어만으로는 이상 여부를 구분하기 어렵고, 환경 경계가 핵심 방어선이라는 설명이다.

클로드 코워크는 일반 지식 노동자를 대상으로 설계된 만큼 사용자가 명령줄 명령의 안전성을 직접 판단하기 어렵다는 점을 전제로 한다. 이에 따라 초기부터 로컬 가상머신 격리를 적용하고, 사용자가 선택한 작업 폴더와 필요한 설정만 마운트하도록 구성했다. 호스트 자격 증명은 호스트 키체인에 저장해 가상머신 내부로 유입되지 않도록 했다.

다만 이 설계에도 취약점은 존재했다. 클로드 코워크는 한때 api.anthropic.com 연결을 허용했고, 악성 파일이 이를 이용해 공격자가 통제하는 API 키를 사용하도록 에이전트를 유도할 수 있었다. 그 결과 앤트로픽 파일 API를 통해 작업 공간 파일이 공격자 계정으로 전송되는 문제도 발생했다. 이후 앤트로픽은 가상머신 내부에 방어용 중간자 프록시 서버를 추가해 VM 세션 토큰이 포함된 요청만 허용하고, 외부에서 삽입된 API 키 요청은 차단하도록 수정했다.

앤트로픽은 성숙한 가상화 기술이나 시스템 호출 필터 자체보다, 제품이 자체적으로 구성한 주변 요소에서 보안 문제가 발생하기 쉬운 구조라고 설명했다.