메타·오픈AI도 썼다…AI 데이터셋 ‘립젠’, 논란인 이유
||2025.03.25
||2025.03.25
[디지털투데이 AI리포터] 메타와 오픈AI가 AI 모델 힉습에 세계 최대 해적판 도서 라이브러리 립젠(LibGen)을 활용한 사실이 드러나면서 법적 논란이 확산되고 있다
25일 온라인 매체 기가진에 따르면 립젠은 2008년 러시아 과학자들이 만든 해적판 라이브러리로, 처음에는 아프리카와 인도, 파키스탄, 이란, 이라크, 중국, 러시아, 구 소련 국가 등 학회에 속하지 않는 사람들을 위해 만들어졌다.
그러나 수년에 걸쳐 논문 이외의 소설이나 논픽션 등의 서적도 축적되어, 현재 750만권 이상의 서적과 8100만개의 연구 논문을 포함한 세계 최대급의 해적판 라이브러리로 등극했다.
AI 기업들은 립젠 활용이 공정 사용(fair use)에 해당한다고 주장하지만, 비트토렌트 기반 P2P 기술을 통해 파일을 공유한 행위는 명백한 저작권 침해로 간주될 수 있다고 한다.
실제로 메타 내부에서는 립젠을 활용한 AI 학습이 '중간~고도의 법적 리스크'를 초래할 수 있다는 우려가 있었으며, 이를 최소화하기 위한 논의도 진행됐다. 직원들은 해적판 데이터를 삭제하거나, AI가 립젠 데이터를 직접 인용하지 않도록 설정하는 방안을 제안했지만, 법적 책임을 피하기엔 역부족이었다는 설명이다.
AI 학습을 위한 데이터 확보가 필수적인 상황에서, 기술 기업들이 저작권을 무시한 채 불법 데이터에 의존하는 현실이 더욱 부각되고 있다고 매체는 경고했다.
고객님만을 위한 맞춤 차량