사후 학습 통한 AI 모델 확산...강화학습 기술 뜬다
||2025.07.29
||2025.07.29
[디지털투데이 황치규 기자] 사전 학습(pre-training)이 아닌 사후 학습(post-training)을 통해 성능을 개선하려는 관련 업계의 행보에 탄력이 붙었다. 이 과정에서 AI 모델이 특정 목표를 달성하면 보상을 주는 AI 개발 기법인 강화학습(reinforcement learning)이 갖는 중량감이 커지는 모양새다.
일론 머스크가 이끄는 xAI는 최근 신형 AI 모델 그록4(Grok 4)를 공개하면서 이전 버전인 그록3 대비 강화학습(reinforcement learning)에 10배 많은 컴퓨팅 파워를 투입했다는 점을 강조했다.
디인포메이션 최근 보도에 따르면 xAI 행보는 AI 개발사들이 점점 사후학습(post-training)를 통해 AI를 개선하는데 주력하고 있음을 보여주는 것으로 풀이된다.
관련 업계에 따르면 지난 몇년 간 거대언어모델(LLM) 개발사들은 사전 학습 프로세스를 위해 웹사이트, 책 등에서 이용할 수 있는 데이터를 사용했지만 쓸 수 있는 데이터에 한계가 오면서 대안이 필요한 상황에 직면해 있다. AI 연구자들도 사전 학습된 모델 성능 개선 속도가 둔화될 것이라고 오랫동안 예상해왔다.
ㆍ"사전 학습 기반 LLM 개발은 결국 끝날 것....에이전트·추론이 미래"
강화학습을 활용한 사후 학습에 관련 업계가 쏟아붓는 실탄이 늘어나는 것도 이와 무관치 않다.
사전 학습의 경우 AI 모델들이 모든 유형 데이터를 놓고 연결고리를 찾으려 시도하지만 강화학습 기반 사후 학습에선 모델들이 답변을 다듬기 위해 큐레이션된 데이터를 검토한다.
강화학습은 최근 등장한 기술이 아니다. 2016년 구글이 바둑 AI 알파고로 이세돌 9단을 꺾었을 때도 강화학습은 많은 주목을 받았다.
하지만 강화학습은 주로 바둑이나 체스 같은 어떻게 행동하는게 맞는건지 상대적으로 알기 쉬운 작업들을 커버하는데 초점이 맞춰져 왔다. 바둑과 체스의 경우 다음에 어떻게 행동하면 게임에서 이길지 알기 쉽고, AI 연구자들은 이같은 행동을 보다 자주 수행하도록 하는 방식으로 승리 가능성을 높일 수 있다고 디인포메이션은 전했다.
하지만 게임 보다 복잡한 작업들로 넘어가면 얘기는 달라진다. 예를 들어 핵발전 원자로 디자인을 어떻게 하는지는 다음에 어떻게 해야 게임에서 이길지와는 급이 다른 문제일 수 있다. 어떤 답변이 정확한지 아는 것 자체가 매우 어렵다.
이를 감안해 AI 모델 개발사들은 스케일AI나 서지(Surge) 같은 데이터 라벨링 회사들을 통해 물리학이나 생물학 등 분야별 전문가들을 활용하고 있다.
그록의 경우 이들 전문가들은 AI 모델이 지금은 풀 수 없는 어려운 문제들을 내고, 문제들에 대한 답변도 직접 작성한다. 이를 토대로 AI 개발자들은 AI 모델에 같은 문제에 대해 수많은 답변을 하도록 요청한다.
xAI 연구원들은 그록이 생성한 답변 중 인간 전문가와 동일한 수준에 도달한 것을 가져와 AI 모델을 학습시킨다고 디인포메이션이 관련 프로세스에 참여하고 있는 한 관계자를 인용해 전했다.
xAI 외에 딥시크 모회사인 하이플라이어 캐피털 매니지먼트도 유사한 전략을 사용해 AI 모델을 개발했다. 오픈AI가 곧 선보일 차세대 AI 모델 GPT-5에서도 사후 학습이 갖는 비중이 커졌을 것이란 관측이 나오고 있다.
테크레이더에 따르면 GPT-5는 이미지 해석, 코드 실행, 이메일 발송, 회의 일정 조율, 음성 요약 등 각기 다른 기능들을 한 프롬프트로 처리할 수 있는 역량도 지닌 것으로 알려졌다. 예를 들어, 사용자는 한 프롬프트로 여행 계획을 세우고, 호텔을 예약하며, 캘린더에 일정을 등록하고, 가족에게 이메일까지 보낼 수 있다.
오픈AI는 또 GPT-5에 장기 메모리 기능을 강화할 것으로 보인다. 현재 챗GPT 일부 버전에서는 사용자 정보를 기억하는 기능이 시험 적용되고 있으며, GPT-5에선 이 기능이 보다 정교하게 구현될 것이라고 테크레이더는 전했다.
고객님만을 위한 맞춤 차량
