시스코, LLM으로 보안 사고 보고서 써봤더니.."시간 줄었지만 환각 위험 여전"

[디지털투데이 황치규 기자]시스코가 AI를 활용해 보안 사고 대응 훈련 보고서를 작성하는 실험한 결과를 공유했다. 시간은 절약되지만 위험도 많다는게 결론이다.

더레지스터 최근 보도에 따르면 시스코 탈로스 사고 대응팀 네이트 포르스 시니어 인시던트 커맨더는 블로그를 통해 거대 언어 모델(LLM)이 긴 기술 문서를 생성할 때 "심각한 부정확, 이상한 결론, 일관성 없는 문체"를 보인다고 밝혔다.

LLM은 크게 4가지 방식으로 오류를 일으키는 것으로 나타났다.

첫째, 같은 질문에도 매번 다른 데이터를 사용해 반복 가능한 결과를 기대하기 어렵다. 둘째, 같은 데이터에서 다른 결론을 내린다. 데이터 유출 사고에서 한번은 전사 비밀번호 초기화를, 또 어떨 때는 대상 한정 초기화를 권고하는 식이다. 셋째, 문서 구조와 형식이 실행할 때마다 달라진다. 넷째, 데이터를 누락해 핵심 정보가 빠질 수 있다.

탈로스팀은 이같은 문제를 줄이는 방법도 개발했다. LLM에 보고서에 들어가는 특정 소규모 부분만 다루는 단일 작업 지시를 내리면 환각과 내용 오류가 크게 줄어든다는게 시스코 설명이다. 사용할 출처를 지정하고, 문체와 형식 규칙을 정하는 것도 효과적이다.

이 기법을 활용해 시스코는 보안 훈련 기반 사고 보고서 초안 작성 시간을 50% 줄였다. 품질 검수 과정에서 동료 검토자, 전문 편집자, 관리자 모두 AI가 작성한 사실을 모른 채 긍정적 평가를 했다. 오탈자와 문법 오류가 평균 보고서보다 훨씬 적었다는 평가도 나왔다.

다만 한 세션에서 여러 보고서를 편집하면 앞선 보고서 내용이 다음 보고서에 섞여 들어가는 오류가 발생했다. 보고서마다 새 세션을 시작하고 프롬프트를 다시 입력하라고 탈로스팀은 권고했다.

시스코는 맞춤법·문법 검사용 프롬프트도 개발했지만 존재하지 않는 문법 오류를 만들어내고, 실제 오류는 못 잡는 경우가 많았다. 성공률이 50% 미만이라 "실무 사용에 부적합하다"게 시스코 입장이다.

포르스는 이같은 접근법을 다른 사이버 보안 보고서에도 적용할 수 있다고 밝혔다. 다만 "최종 보고서 모든 문장에 대해 작성자가 책임을 져야 한다"고 강조했다. 수동 검수 없이 쓰면 중복되거나 관련 없거나 실행 불가능한 권고가 최종 보고서에 들어갈 수 있다고 지적했다.