AMD, 자사 GPU로 학습한 소규모 AI 모델 ‘인스텔라’ 공개

[디지털투데이 AI리포터] AMD가 새로운 오픈소스 언어 모델 인스텔라(Instella)를 발표했다고 7일(현지시간) 온라인 매체 기가진이 보도했다.

30억(3B) 파라미터 규모의 인스텔라는 AMD 인스팅트 MI300X GPU 128개를 사용해 훈련된 최신 모델로, 4조1500억 토큰의 데이터로 학습됐다.

학습에 사용된 토큰 수와 성능의 균형 면에서 라마3(Llama-3.2-3B), 제마2(Gemma-2-2B), 큐웬2.5(Qwen-2.5-3B) 등의 최첨단 오픈 가중치 모델과 비교해도 경쟁력 있는 성능을 발휘하는 것으로 알려졌다. 특히 학습에 사용된 토큰 수가 상대적으로 적음에도 불구하고 라마3보다 4.08% 더 높은 평균 성능을 보였다고 한다.

또한 인스텔라는 단순한 단일 모델이 아니라, 4단계의 학습을 거친 모델 군으로 제공된다. 각 단계는 언어 이해력과 문제 해결 능력을 강화하는 방식으로 학습된 것이 특징이다. 각 모델명은 인스텔라-3B-스테이지1(Instella-3B-Stage1), 인스텔라-3B(Instella-3B), 인스텔라-3B-SFT(Instella-3B-SFT), 인스텔라-3B-인스트럭트(Instella-3B-인스트럭트)다.

인스텔라는 완전히 개방적이고 접근 가능한 오픈소스 모델로, 훈련의 각 단계별 체크포인트도 허깅페이스에서 다운로드할 수 있다.

AMD는 "이번 인스텔라를 통해 AMD GPU 에서 언어 모델을 훈련시킬 수도 있다는 가능성을 보여줬다"라며 "향후에도 컨텍스트 길이, 추론 능력, 멀티모달 기능 등 다양한 측면에서 모델을 강화해나갈 계획"이라고 밝혔다.