깃허브 도구로 AI 안전장치 뚫렸다…메타·구글 공개 모델서 확인

이번 사례는 오픈웨이트 모델의 개방성이 활용 범위를 넓히는 동시에 안전제어 유지에는 약점이 될 수 있음을 보여준다. [사진: 셔터스톡]

[디지털투데이 홍진주 기자] 메타와 구글이 공개한 일부 오픈웨이트 인공지능(AI) 모델의 안전장치가 깃허브에 공개된 도구만으로 수분 안에 해제될 수 있다는 테스트 결과가 나왔다.

27일(현지시간) 온라인 매체 기가진에 따르면, 메타의 '라마 3.3'과 구글의 '젬마 3'는 안전제어가 제거된 뒤 원래는 거부해야 할 위험한 질문에도 응답한 것으로 나타났다.

논란의 핵심은 AI 챗봇에 기본 탑재되는 안전제어 시스템이다. 이 장치는 악성코드 제작, 생물무기 제조, 아동 성적 학대 콘텐츠 같은 위험하거나 불법적인 요청을 차단하는 역할을 한다. 하지만 이번 테스트에서는 깃허브에 공개된 '헤레틱'(Heretic)이라는 도구를 이용해 별도 전문 장비 없이도 라마 3.3의 안전장치를 10분 이내에 해제할 수 있었던 것으로 전해졌다.

안전장치를 무력화하는 방식으로는 '어블리터레이션'(abliteration) 기법이 사용됐다. 이는 AI 모델이 위험한 요청을 거부할 때 작동하는 내부 표현, 이른바 '거부 방향성'(refusal direction)을 찾아 약화시키는 방식이다. 폐쇄형 AI 모델과 달리 오픈웨이트 모델은 외부 이용자가 모델 가중치를 직접 내려받아 수정할 수 있기 때문에 한 번 안전제어가 제거되면 수정된 파생 모델이 빠르게 퍼질 수 있는 구조다.

실제로 헤레틱 제작자인 필리프 에마누엘 바이트만은 해당 도구가 공개된 이후 안전장치가 제거된 모델 3500개 이상을 만드는 데 사용됐다고 밝혔다. 이런 모델들의 누적 다운로드 횟수는 1300만회를 넘어선 것으로 전해졌다. 그는 또 다른 사례로 구글의 젬마 4 역시 공개 후 약 90분 만에 안전장치를 제거할 수 있었다고 주장했다.

구글은 이에 대해 오픈모델 전반이 안고 있는 "이미 알려진 기술적 과제"라는 입장을 밝혔다. 회사는 자사 오픈모델이 공개 전에 엄격한 내부 안전성 평가를 거친다고 설명했다. 반면 메타는 별도의 공식 입장을 내놓지 않았다.

이번 사례는 오픈웨이트 AI 모델이 가진 구조적 한계를 다시 드러냈다는 평가를 받고 있다. 챗GPT나 클로드처럼 내부 가중치 접근이 제한된 폐쇄형 모델은 같은 방식의 수정이 쉽지 않지만, 라마와 젬마처럼 가중치를 공개한 모델은 배포 이후 기업이 통제를 유지하기 어렵기 때문이다.

공동 테스트에 참여한 AI 안전단체 앨리스(AI Safety Institute)는 "AI 성능이 높아질수록 위험한 용도로의 전환은 더 이상 공상과학 수준의 이야기가 아니다"라고 경고했다. 단체는 사회 전반이 이런 위험 가능성에 대비할 필요가 있다고 강조했다.

업계에서는 이번 결과가 단순한 기술 시연을 넘어 오픈웨이트 AI 생태계의 핵심 논쟁을 다시 부각시키고 있다는 분석이 나온다. 기업이 모델 공개 전 안전장치를 심더라도, 배포 이후 제3자가 이를 제거해 재배포하는 것까지 막기 어렵다는 점이 확인됐기 때문이다.

이에 따라 오픈웨이트 AI 업계에서는 모델 공개 범위와 사후 대응 체계, 파생 모델 유통 관리 문제를 둘러싼 논의가 더 커질 전망이다. AI 개방성과 안전성 사이의 균형을 어디까지 허용할 것인지가 향후 주요 정책·산업 과제로 떠오르고 있다.