맥북 프로 1대로 5분 만에 AI 훈련한다고?
||2025.08.18
||2025.08.18
[디지털투데이 AI리포터] 인공지능(AI) 모델 훈련은 기본적으로 고성능 그래픽처리장치(GPU)를 장시간 가동해 실행되지만, 5분 만에 노트북에서 AI를 훈련하는 실험이 진행돼 눈길을 끌었다.
18일(현지시간) 온라인 매체 기가진에 따르면 마이크로소프트(MS) 깃허브 직원이자 AI 제품 개발자인 숀 괴데케(sean goedecke)는 맥북 프로에서 5분 만에 언어 모델을 훈련하는 도전에 나섰고, 최적의 방법을 찾았다. 그는 언어 모델 훈련에 '파이토치'(PyTorch) 라이브러리를 선택했다. 애플이 개발한 'MLX'도 테스트했지만 속도 향상 효과는 없었다고 한다.
구데크에 따르면 훈련 시간을 5분으로 제한하면 학습 데이터량도 줄어들어 약 50MB(1000만 토큰)만 사용할 수 있다. 이에 따라 훈련 초기에는 ‘심플 영어 위키피디아’(Simple English Wikipedia) 등 단순 영문 위키 데이터를 먼저 사용한 결과, 의미 일관성이 부족한 것으로 나타났다. 이후 반복적인 문장 구조 문제가 발생해 최종적으로 4세 수준의 독해력을 가진 ‘타이니스토리즈'(TinyStories)와 같은 데이터셋을 채택했다. 해당 데이터셋을 사용할 경우 이야기 구조가 명확하고 언어가 단순하여 결과가 훨씬 더 일관적이었다.
모델 아키텍처는 구글이 개발한 GPT-2 스타일의 트랜스포머 방식을 사용했다. 이 과정에서 파라미터 조정에 가장 많은 시간이 소요됐다. 제미나이 디퓨전(Gemini Diffusion) 등과 함께 최근 확산 모델이 주목받지만, 이번 훈련 환경에서는 효과가 없었다고 한다.
모델 크기도 중요한 변수였다. 보통 파라미터가 많을수록 성능이 향상되지만, 제한된 환경에서는 오히려 성능이 저하됐다. 테스트 결과, 약 200만 파라미터 수준에서 가장 높은 성능을 보였다.
결국, 맥북 프로에서 5분 훈련 조건에서는 파이토치, 타이니스토리즈 데이터셋, 트랜스포머 180만 파라미터 조합이 가장 강력한 언어 모델을 만드는 방법이라는 결론에 도달했다.
고객님만을 위한 맞춤 차량