LLM 성능 확장의 법칙 한계 왔나?...오픈AI도 우회 기술 개발 점점 집중
||2024.11.10
||2024.11.10
[디지털투데이 황치규 기자]오픈AI가 곧 내놓을 LLM 품질 개선 속도가 예전 2개 모델들에 못미치면서 개발 전략을 수정하고 있다는 소식이다. 오픈AI는 LLM 개선 속도 저하를 메우기 위해 LLM을 강화하기 위한 새로운 기술들을 고안하는데 속도를 내고 있다고 디인포메이션이 9일(현지시간) 보도했다.
보도에 따르면 이는 샘 알트먼 CEO가 5월 직원들에게 오리온에 대해 했던 말과는 배치된다.
당시 샘 알트먼 오픈AI CEO는 오리온에 대해 1년 전 출시된 플래그십 LLM 모델(GPT-4)Q보다 상당히 뛰어날 것이라며 "오리온 학습 프로세스 중 20%를 완료했지만 이미 지능과 직업들을 수행하고 질문에 답하는 역량에서 GPT-4가 비슷한 수준"이라고 말한 것으로 알려졌다.
디인포메이션은 당시 그의 말을 들은 한 관계자를 인용해 관련 내용을 전했다.
하지만 현재 상황은 그의 말과는 다른 듯 보인다.
오리온은 이전 모델들보다 성능이 우수하지만 품질 증가율만 놓고 보면 이전 GPT-3와 GPT-4에는 한참 못미친다고 오리온을 사용해봤고 테스트해 본 오픈AI 일부 직원들을 인용해 디인포메이션은 전했다.
오리온은 언어 작업들에선 나은 성능을 보이지만, 코딩 같은 작업들에선 이전 모델들을 앞서지 못할 수도 있다고 한 오픈AI 직원은 말했다.
고품질 텍스트 및 다른 데이터 공급이 크게 줄어든 것도 GPT 성능 증가 속도가 둔화되는 이유들 중 하나로 꼽힌다. 지난 몇년 간 LLM 개발사들은 사전 학습 프로세스를 위해 웹사이트, 책 등에서 이용할 수 있는 데이터를 사용했지만 관련 업체들은 이들 데이터에서 쓸 수 많은 것들을 가져다 썼다고 디인포메이션은 전했다.
LLM 개선 속도가 한계에 직면한 것 아니냐고 의문을 제기하는 시선이 테크판 내부에서도 나오고 있다. 실리콘밸리 유력 벤처 투자 회사(VC)인 앤드리슨 호로위츠를 이끄는 벤 호로위츠는 최근 유튜브에서 "AI학습에 사용되는 GPU를 같은 속도로 늘리고 있지만 그에 따른 지능적인 개선은 전혀 얻지 못하고 있다"고 말했다.
독립 저널리스트인 윌 로켓(Will Lockett)은 데이터셋과 컴퓨팅 파워 측면면서 LLM이 계속해서 같은 속도로 발전하기는 어렵다고 지적해왔다.
그는 5월 "오픈AI는 AI 개발 방식에 대해 함구하고 있지만, 전문가들 조사에 따르면 GPT3는 GPT2보다 약 78배 더 큰 훈련 데이터셋을 사용했고 GPT4는 GPT3보다 571배 더 큰 데이터셋을 사용했다. 일부 추산에 따르면 GPT4 로(Raw) 훈련 데이터셋은 45TB 일반 텍스트로 구성돼 있다. 즉, 다음 버전이 GPT4가 GPT3에 비해 개선된 만큼 좋아지려면 학습 데이터셋이 수만 TB가 되어야 한다는 뜻이다. 오픈AI가 이 정도 일반 텍스트 데이터를 수집하고 준비하는 것은 비현실적인 일이다. 또 이 데이터셋을 사용해 AI를 학습시키려면 너무 많은 에너지를 사용해야 하므로 그 비용은 실행 불가능한 것일 수 있다"고 말했다.
데이터센터에서 오리온을 돌리는 비용이 보다 비쌀 것임을 감안하면 오픈AI 입장에서 이같은 상황은 문제일 수 있다. 또 오리온 사례는 학습할 데이터가 많아지고 학습 과정을 촉진할 컴퓨팅 성능이 추가되는 한 LLM이 동일한 속도로 계속 개선될 것이라는 AI 분야 핵심 가정, 즉 확장의 법칙(scaling laws)을 테스트할 수 있는 사례라고 디인포메이션은 전했다.
관련 업계는 학습 기반 확장의 법칙이 직면한 도전에 대응하기 위해 학습 이후 모델을 개선하는 프로세스을 강화하는 모습이다.
오픈AI 연구원들은 코딩을 포함해 학습 후 LLM이 다루는 특정 작업들을 개선하기 위해 다른 툴들도 활용하고 있다. 오픈AI 연구원들은 강화학습(reinforcement learning)으로 알려진 프로세스를 통해 수학이나 코딩 관련한 문제들이 올바르게 해결된 대규모 샘플들에서 모델이 배우도록 함으로써 이같은 작업을 수행 중이다.
학습 후 LLM 평가를 위해 오픈AI를 포함해 LLM 개발사들은 스케일AI와 튜링 같은 회사들도 활용하고 있고 오픈AI의 경우 추론 모델(reasoning model)인 o1도 선보였다. o1은 기본 모델을 변경하지 않고도 모델이 사용자 질문에 답변하는 동안 추가 컴퓨팅 리소스를 제공하면 응답 품질이 계속 향상될 수 있다는 초점이 맞춰져 있다.