클라우데라, 왜 AI 프라이버시 리스크 대안으로 합성 데이터 강조하나
||2026.01.27
||2026.01.27
[디지털투데이 황치규 기자]데이터 플랫폼 기업 클라우데라가 기업들을 상대로 거대언어모델(LLM) 사용에 따른 프라이버시 리스크를 줄일 수 있는 방안으로 합성 데이터를 강조하고 나섰다.
회사 측에 따르면 AI가 기업 운영 전반에 깊숙이 통합되면서 LLM은 고객 지원, 데이터 분석, 개발자 생산성, 지식 관리 등 다양한 업무에 활용되고 있다. 여기에 AI 에이전트까지 부상하며, AI는 정보를 검색하고 추론하는 것을 넘어 실질적인 업무를 수행하는 단계로 진화하고 있다.
그러나 AI 활용이 확대될수록 프라이버시 리스크에 대한 우려도 제기된다. AI 모델 성능 향상에 필요한 데이터는 지원 대화 기록, 거래 내역, 운영 로그 등 개인식별정보(PII), 규제 대상 정보, 기업 고유 비즈니스 맥락이 포함되는 경우가 많다.
합성 데이터는 실제 데이터셋 핵심 패턴을 반영하면서도 실제 기록을 재현하지 않도록 알고리즘으로 생성된 데이터로, 기업은 이를 통해 민감한 정보 노출을 줄이면서도 AI 개발과 테스트를 진행할 수 있다.
합성 데이터는 단순한 테이블 데이터 생성 단계를 넘어 진화했다. 최근 기업들은 원본 데이터를 사용하지 않고도 실제 업무 흐름 구조를 반영한 합성 인스트럭션 데이터, 합성 대화 데이터, 합성 인시던트 티켓, 합성 질의응답 데이터를 생성할 수 있다.
클라우데라는 합성 데이터가 중요한 의미를 갖는 AI 개발 영역을 3가지로 꼽는다.
우선 지도 학습 기반 파인튜닝(Supervised fine-tuning, SFT) 및 도메인 적응이다. 기업들은 AI 모델이 특정 도메인에 맞춰 작동하길 원한다. 이는 조직 고유 용어, 정책 규칙, 제품 카탈로그 구조, 에스컬레이션 로직 등 이해하고 반영하는 방식이다. 그러나 이같은 미세조정에 필요한 학습 데이터는 민감한 정보를 포함하는 경우가 많아 활용에 제약이 따른다.합성 데이터셋은 실제 업무 의도 와형식을 반영하면서도 개인정보 노출 위험을 최소화할 수 있는 안전한 학습 환경을 제공할 수 있다는게 클라우데라 설명이다.
다음은 대규모 AI 모델 평가 작업이다. 기업용 AI 프로그램에서 병목 현상은 모델 평가 단계에서 빈번하게 발생한다. 팀은 일상적인 질의, 엣지 케이스(예외 사례), 오류 발생 시나리오, 컴플라이언스에 민감한 주제 등 다양한 상황에서 모델을 테스트해야 한다.
합성 작업 생성은 수동 방식보다 빠르게 광범위하고 반복 가능한 평가 세트를 구축할 수 있도록 지원한다. 이를 효과적으로 수행할 경우, 실제 서비스 적용 이전에 모델 동작에 대한 신뢰도를 높일 수 있으며, 테스트 과정에서 민감한 원본 데이터를 다뤄야 할 필요도 줄일 수 있다고 클라우데라는 설명했다.
마지막으로 검색증강생성(RAG) 및 AI 에이전트 맞춤 데이터 큐레이션 분야다. 검색증강생성과 에이전트 워크플로우는 지식 기반 및 테스트 프롬프트 품질에 크게 좌우된다. 합성 데이터는 현실적인 질의, 변형, 다단계 상호작용을 생성해 검색 및 도구 사용 행태를 철저하게 검증할 수 있다. 이를 통해 실제 민감한 대화 데이터를 입력 데이터로 사용해야 하는 빈도를 줄일 수 있다.
세르지오 가고(Sergio Gago) 클라우데라 CTO는 “합성 데이터는 체계적으로 관리될 때 개인정보 노출을 줄이면서 모델 개발을 진행할 수 있는 리스크 감소 도구"라며 "LLM과 에이전트 AI 배포가 확대되면서 합성 데이터는 민감한 개인정보에 대한 의존도를 낮추는 현실적인 경로가 될 것"이라고 말했다.
최승철 클라우데라코리아 지사장은 "최근 연쇄적인 대형 데이터 유출 사고가 이어지면서 국내 기업들은 철저한 데이터 보안을 준수하면서 AI 혁신을 추진해야 하는 과제를 안고 있다"며 "합성 데이터는 데이터 보안 리스크를 최소화하면서도 AI 경쟁력을 확보할 수 있는 전략 수단이 될 것"이라고 말했다.
고객님만을 위한 맞춤 차량
