토큰 15조 시대…AI 열풍에 인프라 한계 드러났다
||2026.04.07
||2026.04.07
[디지털투데이 AI리포터] 인공지능(AI) 서비스 수요가 급증하면서 그래픽처리장치(GPU) 공급과 전력 인프라 전반에서 병목 현상이 심화되고 있다.
6일 비즈니스인사이더에 따르면, 린 차오(Lin Qiao) 파이어웍스 AI 최고경영자(CEO)는 최근 인터뷰에서 "올해 토큰 소비가 기하급수적으로 증가할 것"이라며 현재의 수요 확대는 "이제 시작 단계"라고 밝혔다.
그에 따르면 파이어웍스 AI의 추론 클라우드 플랫폼은 하루 약 15조개의 AI 토큰을 처리한다. 이는 몇 달 전 약 13조개에서 증가한 수치이며, 2025년 말 약 10조개 수준과 비교해도 빠른 성장세다. 토큰은 AI가 텍스트 등 입력 데이터를 잘게 나눠 처리하는 기본 단위로, 업계에서는 '100만 토큰당 비용' 형태로 서비스 요금을 산정하는 기준으로도 활용된다.
AI 활용은 더 이상 개발 조직에만 국한되지 않는다. 차오는 재무 부서가 AI로 예측 업무를 자동화하고, 법무팀이 내부 AI 도구를 개발하며, 플랫폼 노동자가 생성형 AI로 주문형 음악을 제작하는 사례를 언급했다. 그는 "이제 거의 모든 사람이 이런 도구를 사용하고 있다"라고 말했다.
이 같은 수요 증가는 기술 스택 전반에 부담을 주고 있다. GPU 공급이 빠듯해지며 가격이 상승하고, 기업들이 처리 용량 확보 경쟁에 나서면서 전력 인프라 부담도 커지고 있다는 설명이다. 차오는 반도체 부품부터 전력망에 이르기까지 병목이 이어지고 있다며 "전체 시스템이 포화 상태에 가까워지고 있다"라고 진단했다.
이러한 상황은 "하이퍼스케일러가 GPU를 임대하는데도 왜 파이어웍스 AI 같은 기업이 필요한가"라는 질문으로 이어진다. 차오는 그 이유로 복잡성과 속도를 꼽았다. 엔비디아 칩은 수개월 단위로 진화하고, AI 모델은 수주 단위로 업데이트되는 만큼 기업이 이를 자체적으로 따라가기 어렵다는 것이다. 파이어웍스 AI는 성능 최적화와 인프라 운영, 신속한 전환을 지원해 고객의 부담을 줄인다고 설명했다.
차오는 과거 메타에서 오픈소스 프레임워크 파이토치(PyTorch) 구축에 참여한 경험도 언급했다. 당시에는 AI에 최적화된 GPU나 성숙한 도구, 명확한 로드맵이 부족해 "모든 것을 처음부터 만들어야 했다"라고 회고했다. 그는 AI가 실질적으로 활용 가능한 수준에 도달하는 순간 채택이 급격히 확산된다며, 현재의 토큰 처리량 증가는 그 초기 가속 단계에 있음을 보여준다고 강조했다.
고객님만을 위한 맞춤 차량
