독파모, 주권의 1막을 넘어 효용의 2막으로 [이승현의 AI 네이티브]
||2026.01.20
||2026.01.20
“이승현의 AI 네이티브, 화요일 아침 독자 여러분께 인사드립니다.”
‘이승현의 AI 네이티브’는 인공지능(AI)의 본질과 진화를 한눈에 조망합니다. AI가 단순한 기술을 넘어 사회의 새로운 ‘본성(Native)’으로 자리 잡는 과정을, 하부 구조에서 상위 서비스까지 추적합니다. 여기에 민·관을 아우르는 실전적 통찰을 더해, 대한민국이 독자적 경쟁력을 갖춘 AI 네이티브 강국으로 도약할 수 있는 구체적 로드맵을 제시합니다. [편집자 주]
말도 많고 탈도 많았던 '독자 파운데이션 모델 1차 평가'가 지난 15일 마무리됐다. 평가 과정에서 해외 오픈소스 참조 여부와 프롬 스크래치(From Scratch)의 기술적 순수성을 두고 매서운 검증과 논란이 있었던 것은 사실이다. 하지만, 우리 기술로 바닥부터 쌓아 올린 모델들이 글로벌 최상위 모델의 성능에 단기간 도달했다는 점은 누구도 부인할 수 없는 고무적인 성과다. 우리가 데이터 주권을 지키고, AI라는 거대한 기술 패권 전쟁에서 그 가능성을 입증한 것만으로도 1차 평가는 역사적 소임을 다했다고 본다.
하지만 이제 2차 평가라는 또하나의 관문 앞에 서 있다. 1차 평가가 모델을 어떻게 만드는지(HOW)를 묻는 '기술적 자립'의 무대였다면, 2차 평가는 그 기술이 우리 사회를 어떻게 바꿀 수 있는지를 묻는 실용적 가치(Performance)의 시험대다. 이제는 "벤치마크 점수가 몇 점인가"라는 1차원적 질문을 거두고, "그래서 그 모델로 무엇을 해결할 수 있는가"라는 본질적인 질문을 던져야 할 때다.
지금까지 우리는 MMLU나 GSM8K와 같은 리더보드 순위에 지나치게 매몰되어 있었다. 그러나 지표가 목표가 되는 순간 그 지표는 신뢰성을 잃는다는 '굿하트의 법칙'처럼, 연구실의 정제된 데이터셋에서 기록한 정답률이 노이즈 가득한 현장의 문제 해결 능력을 담보하지는 않는다. 따라서 2차 평가의 대전제는 리더보드 엔지니어링을 넘어선 서비스 실증(Service Validation)이 되어야 한다. 모델의 파라미터 개수를 세는 것을 넘어, 현장에 투입되었을 때 발생하는 지연 시간(Latency)과 비용 효율성, 그리고 무엇보다 해결의 완결성을 검증해야 한다.
구체적으로 평가의 잣대는 공공과 비즈니스 영역에서의 '문제 해결 능력'으로 구체화되어야 한다. 공공 영역에서의 AI는 유려한 문장력이 아니라, 복잡한 행정 프로세스를 정확하게 수행하는 능력이 핵심이다. 법령과 내부 지침을 해석해 민원인에게 법적 효력이 있는 답변을 제공하고, 복지 사각지대 데이터를 분석해 선제적 대책을 제안함으로써 국민이 체감하는 행정 서비스의 질을 혁신해야 한다. 비즈니스 영역 또한 마찬가지다. 기업 내부의 파편화된 데이터를 연결했을 때 할루시네이션(환각)을 얼마나 통제할 수 있는지, 그리고 실제 업무 흐름을 자동화해 기업의 생산성 지표(ROI)를 얼마나 획기적으로 개선했는지를 숫자로 증명하는 '실무형 지능'만이 살아남을 수 있다.
기술적인 관점에서도 변화는 필수적이다. 글로벌 AI 경쟁의 양상은 이미 모델 성능 경쟁에서 생태계 연결 경쟁으로 넘어갔다. 아무리 뛰어난 지능을 가진 모델이라도 외부와 단절되어 있다면 살아남기 어려운 시대다. 2차 평가는 MCP(Model Context Protocol)를 필두로 한 상호운용성(Interoperability)도 핵심 지표중 하나로 삼아야 한다. 모델이 외부의 도구(Tool)를 얼마나 능숙하게 활용하고, 기업의 ERP나 공공 데이터 포털과 얼마나 유연하게 연결되는지, 즉 특정 벤더에 종속되지 않는 '개방형 연결성'과 '확장성'을 갖췄는지가 미래 경쟁력의 척도가 될 것이다.
또한, 최근 AI 트랜드는 단일 모델이 아닌 특화된 여러 AI가 협업하는 멀티 에이전트 시스템(MAS)이 주도해가고 있다. 이 환경에서 파운데이션 모델의 역할은 단순한 텍스트 생성기가 아니다. 수많은 에이전트를 정확하게 지휘하고 통제하는 오케스트레이터(Orchestrator)가 되어야 한다. 자율적인 에이전틱 워크플로우(Agentic Workflow) 안에서 모델은 기획, 실행, 검증을 담당하는 각 에이전트의 결과물을 종합하고, 문맥을 잃지 않으면서 최적의 판단을 내리는 추론 엔진(Reasoning Engine)으로서의 성능을 입증해야 한다. 모델이 얼마나 정확하게 도구를 호출하고 상황을 조율하는지가 2차 평가의 기술적 핵심이 되어야 한다.
결론적으로, 1차 평가를 통해 가능성과 주권성을 확인했다면, 이제 그 불씨를 살려 실질적인 산업의 동력으로 전환해야 한다. 2차 평가는 단순한 스펙 경쟁을 멈추고 철저하게 효용성 중심으로 이동해야 한다. 성능지표 속의 숫자가 아니라, 국민의 삶을 개선하고 기업의 이익으로 치환될 수 있는 가치를 만들어내는 것만이 우리 독자 모델이 생존을 넘어 글로벌로 나아갈수 있다. 기술은 이제 과시가 아니라, 쓰임새로 증명되어야 한다.
물론, 선별보다는 육성에 초점을 맞춘 정책이 이상적이지만, 자원의 한계와 AI의 '스케일의 법칙'이 지배하는 냉혹한 현실 속에서 이번 독자 모델 선정은 불가피한 선택이었다고 평가한다. 하지만 배경훈 부총리와 류제명 차관이 공언한 바와 같이 경쟁은 치열하게 하되 생태계는 따뜻해야 한다. 비록 이번 1차 관문에서 선정되지 못했더라도 역량 있는 기업들이 계속 도전할 수 있도록 다양한 트랙의 지원이 뒤따라야 한다. AI 기업들의 날개가 꺾이지 않도록 정부가 세심한 패자부활전과 사다리를 놓아주길 기대한다.
※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.
이승현 포티투마루 부사장은 스타트업 창업가 출신의 AI 전문가다. 디지털플랫폼정부위원회 인공지능플랫폼혁신국장으로서 재직하면서 대한민국 공공 AI의 초석을 닦았으며, 현재는 법무법인 린의 공공AX 고문을 겸하며 기술과 정책의 가교 역할을 하고 있다. 이론에 머물지 않는 현장형 전략가로서 국가 전반의 AI 네이티브 전환을 이끌고 있다.
고객님만을 위한 맞춤 차량
