딥시크, 구글 제미나이 활용 의혹…AI 훈련 데이터 논란
||2025.06.04
||2025.06.04
[디지털투데이 AI리포터] 중국 인공지능(AI) 연구소 딥시크(DeepSeek)가 최근 공개한 R1 모델이 구글 제미나이(Gemini) 데이터를 활용했을 가능성이 제기됐다.
IT 개발자 샘 피치(Sam Paeach)는 딥시크의 R1-0528 모델이 구글 제미나이 2.5 프로와 유사한 표현을 선호한다고 주장하며, 딥시크가 제미나이 데이터를 활용했을 가능성을 제기했다고 3일(현지시간) IT매체 테크크런치가 전했다.
이러한 의혹은 딥시크가 과거에도 경쟁 AI 모델의 데이터를 활용했다는 정황과 맞물려 논란을 키우고 있다. 지난해 딥시크의 V3 모델이 스스로를 챗GPT로 인식하는 현상이 발견되면서, 챗GPT 대화 로그를 활용한 훈련 가능성이 제기됐다.
오픈AI는 파이낸셜타임스에 딥시크가 대형 AI 모델에서 데이터를 추출해 자체 모델을 훈련하는 '증류(distillation)' 기법을 활용했다고 주장했다. 블룸버그에 따르면, 2024년 말 오픈AI의 투자자인 마이크로소프트(MS)는 오픈AI 개발자 계정을 통해 대량의 데이터가 유출된 정황을 포착했으며, 오픈AI는 이를 딥시크와 연관 지었다.
AI 기업들은 이러한 데이터 남용을 막기 위해 보안 조치를 강화하고 있다. 오픈AI는 올해 4월부터 특정 모델 접근을 위해 신분 인증을 요구했으며, 구글은 AI 스튜디오 플랫폼의 모델 추적 기록을 요약하는 방식으로 보안을 강화했다. 또 다른 AI 기업 앤트로픽은 자체 모델의 추적 기록을 요약해 경쟁사들이 이를 활용하지 못하도록 조치를 취하고 있다.
AI 훈련 데이터의 불법 활용 논란이 커지는 가운데, 딥시크가 구글 제미나이 데이터를 활용했는지 여부는 여전히 불확실하다. AI 연구원 네이선 램버트(Nathan Lambert)는 "딥시크가 제미나이 데이터를 활용했을 가능성을 배제할 수 없다"고 언급했다. 이에 대해 구글 측은 아직 공식 입장을 내놓지 않았다.
AI 기술의 발전과 함께 데이터 활용 방식이 점점 더 복잡해지고 있다. 기업들은 보안 조치를 강화하고 있지만, AI 모델이 경쟁사의 데이터를 활용하는 증류 기법은 여전히 문제로 남아 있다. 앞으로 AI 훈련 데이터의 출처와 사용 방식에 대한 투명성이 더욱 중요해질 것이다.
If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025
고객님만을 위한 맞춤 차량