데이터 없다면 만들어라 ‘합성데이터’ [요즘 뜨는 AI]
||2024.09.18
||2024.09.18
인공지능(AI) 산업이 시시각각 변하고 있습니다. GPT가 나오고 생성형 AI가 무엇인지 궁금해하던 때가 불과 한 해 전인데요. 지금은 텍스트, 이미지, 영상을 한꺼번에 이해하고 생성하는 AI가 나왔고, 보다 정확한 생성을 위한 기술들이 주목받고 있습니다. 누구나 AI 챗봇을 만들 수 있는 스토어가 생기기도 했습니다. 올해는 어떤 기술이, 또는 키워드가 주목받을지 살펴보겠습니다. [편집자주]
AI의 핵심은 데이터입니다. 아무리 좋은 AI 모델도 나쁜 데이터로 학습하면 나쁜 결과값을 제공할 것입니다. 좋은 음식은 좋은 재료에서 나오는 것처럼 말이죠.
좋은 데이터를 얻는다는 것은 말처럼 쉽지는 않습니다. 세상에는 온갖 데이터가 넘쳐나지만 그 중에서 AI가 학습하는 데 필요한 데이터를 얻기란 쉽지 않다는 것이죠. 특히 최근 들어서는 그런 어려움이 더 커지고 있습니다. AI가 학습할 만한 데이터는 거의 다 써버린 상태고 더 학습할 데이터는 점점 부족해지고 있기 때문입니다.
희귀 데이터에 대한 수집의 한계도 큰 어려움 중 하나입니다. 대표적으로 자율주행 분야인데요. 사고를 유발할 수 있는 희소한 상황 데이터는 좀처럼 발생되지 않습니다. 고속도로를 달리고 있는데, 앞서 가던 타이어 운반 트럭에서 타이어 하나가 갑자기 굴러떨어지는 그런 상황이 희귀한 것처럼 말이죠.
제조 분야에서도 비슷한 어려움이 있습니다. AI 기반 불량검출 시스템 개발을 위해 불량 데이터를 학습해야 하는데 얻기가 쉽지 않습니다. 만약 평소 불량률이 1%라고 한다면 100개 생산할 때 겨우 1개의 불량 데이터를 확보할 수 있습니다. AI가 학습하는 데 1000개의 불량 이미지가 필요하다고 가정하면 10만개를 생산할 때까지 불량 데이터를 모아야 합니다. 개인 정보 취득이 어려운 의료, 금융 분야도 마찬가지입니다.
이를 해결해 줄 수 있는 방법이 있기는 합니다. 바로 ‘합성데이터(Synthetic Data)’입니다. 단어에서 유추해볼 수 있듯 기존 데이터를 합성해서 새로운 데이터를 만드는 방법입니다.
앞서 경우를 예로 들면 트럭에서 타이어가 굴러떨어지는 상황 데이터를 다양한 설정으로 변경해 데이터를 만들어내는 것입니다. 방향도 바꿔보고 날씨나 시간대, 태양의 위치 등도 바꿔보면서 말이죠.
물론 아무렇게나 마구마구 생성하지는 않습니다. 주로 통계적 방법과 GAN(적대적 생성 신경망), VAE(변형 오토인코더) 등의 머신러닝 기술을 사용한다고 합니다. 우리가 사용하는 생성형 AI 기술의 일부이기도 한데요. GAN의 경우 두 개의 신경망 모델이 서로 경쟁하듯 가짜 데이터를 만들고 이를 판별해나가면서 학습하는 방법인데요. 여기서 진짜같은 가짜 데이터를 합성데이터로 활용합니다.
합성데이터 시장은 빠르게 성장하고 있습니다. 시장조사기관 가트너에 따르면 2024년 글로벌 합성데이터 시장 규모는 261억달러(약 34조5800억원)로 4년 만에 10배 이상 커졌습니다. 현재는 합성데이터가 실제 데이터의 3분의 1 수준이지만 2030년에는 실제 데이터의 2배가 넘을 것으로 예측하고 있습니다.
그도 그럴것이 오픈AI, 구글 등 LLM(대규모 언어모델)을 상용화 한 기업들이 언론, 유튜브 등에서 데이터를 무단으로 수집하고 있다는 지적을 받고 있는 상황만 보더라도 앞으로는 실제 데이터에만 의존할 수 없음이 느껴집니다.
그렇다고 합성데이터만으로 모든 AI 학습을 해결할 수 있는 것은 아닙니다. 사실 합성데이터도 AI가 만들어낸 가짜 데이터인데 이게 반복되면 데이터의 품질이 낮아짐은 물론 어쩌면 현실과는 너무 먼 데이터를 만들어낼 수도 있습니다. 우리가 생성형 AI로 기괴한 이미지를 만들어내듯 말이죠.
그럼에도 합성데이터가 AI의 구원투수인 것은 분명한 것 같습니다.
조상록 기자 jsrok@chosunbiz.com