리얼월드, 로보틱스 파운데이션 모델 ‘RLDX-1’ 공개
||2026.05.07
||2026.05.07
[디지털투데이 황치규 기자]피지컬 AI 기업 리얼월드(RLWRLD)는 자체 개발한 로보틱스 파운데이션 모델(Robotics Foundation Model, RFM) 'RLDX-1'을 공개했다고 7일 밝혔다.
RLDX-1은 사전학습 체크포인트(RLDX-1-PT)와 두 종 플랫폼별 미드-트레이닝 체크포인트(RLDX-1-MT-ALLEX, RLDX-1-MT-DROID) 등 총 3종(각 8.1B 파라미터)으로 구성되며, 모델 가중치·학습 코드·기술 문서는 깃허브(GitHub)와 허깅페이스(Hugging Face)를 통해 외부 연구자에게도 공개됐다.
회사 측에 따르면 RLDX-1은 고자유도 5지(5-finger) 로봇 손에 인간 수준 조작 능력을 부여하기 위해 설계된 덱스터리티 퍼스트(Dexterity-First) 파운데이션 모델이다. 시각과 언어뿐 아니라 손에 가해지는 힘(토크)·촉각·작업 기억까지 단일 모델에서 처리, 시각·언어 중심 기존 범용 VLA(Vision-Language-Action) 모델과 차별화된다.
RLDX-1은 글로벌 공개 벤치마크 8종에서 엔비디아(NVIDIA) 그루트(GR00T), 피지컬 인텔리전스(Physical Intelligence) 파이제로(π0) 등 기존 모델들을 앞섰다.
리얼월드 자사 기술 핵심으로 멀티-스트림 액션 트랜스포머(Multi-Stream Action Transformer, MSAT) 구조를 꼽는다. MSAT는 시각·언어·행동·촉각·메모리 등 서로 다른 신호를 단일 스트림 트랜스포머에서 처리하는 기존 VLA와 달리, MSAT는 각 모달리티에 독립된 스트림을 부여한 뒤 모달리티 간 조인트 어텐션(joint attention)으로 통합한다.
힘(토크)·촉각 등 시각으로는 잡히지 않는 물리 신호와 장기 기억(memory) 또한 별도 모듈(Physics Module, Memory Module)에서 처리해, 단일 모델이 보고(see), 느끼고(feel), 기억하고(remember), 적응(adapt)할 수 있도록 설계됐다고 회사측은 설명했다.
배재경 리얼월드 CTO는 "각 모달리티가 자기 자리에서 충분히 표현될 수 있도록 구조를 분리한 것이 RLDX-1의 핵심"이라며 "토크 신호로 접촉 순간을 정확히 포착하고 시간 축의 동적 변화를 추론하는 능력은 기존 VLA가 구조적으로 다루기 어려웠던 영역"이라고 말했다.
리얼월드는 SK 텔레콤, LG전자, CJ대한통운, 롯데, KDDI, ANA 홀딩스 등 한국과 일본 대기업들로부터 투자를 유치했다. 또 10여개 한·일 대기업들과 벤치마크 공동 개발, PoC(개념검증), RX(Robotics Transformation) 프로젝트를 진행 중이다.
13일 미국에서 진행되는 'Dexterity Night' 론칭 행사에는 한국·미국·일본 휴머노이드 하드웨어 기업들이 참여해 '왜 로봇 산업의 다음 변곡점이 손인가'를 주제로 한 패널 토론도 진행될 예정이다.
류중희 리얼월드 대표는 "픽셀에 담기지 않은 정보는 영상을 아무리 수집해도 나타나지 않는다"며 "RLDX-1은 우리가 향하는 방향의 첫 번째 마일스톤일 뿐이다. 한·일 산업 현장에서 검증한 데이터와 기술을 바탕으로 글로벌 휴머노이드 파트너들과 함께 4D+ 월드 모델로 나아가는 긴 로드맵의 출발점이 오늘"이라고 말했다.
리얼월드는 이번 미국 론칭 행사를 시작으로 일본·한국에서도 순차적으로 론칭 RLDX-1 행사를 진행할 예정이다.
고객님만을 위한 맞춤 차량
