이승준 트웰브랩스 CTO “영상 AI 모델, 빅테크와 경쟁할 무기 있다” [AI 리더스]
||2024.11.06
||2024.11.06
챗GPT로 상징되는 생성형 인공지능(AI)의 본격적인 등장은 지금까지의 AI 기술 생태계를 넘어 사회 전반에 적잖은 충격과 변화의 계기를 만들었다. 이제는 AI 기술의 활용을 경쟁력 확보 이상의 생존 전략으로 꼽을 정도다. 하루가 다르게 바뀌고 발전하는 AI 시대에 우리는 어떤 대응을 해야 할까. AI 분야를 대표하는 국내외 리더들의 통찰을 공유하고 나아갈 방향을 살펴본다. [편집자주]
“영상은 이미 많이 생성돼 있고 앞으로도 많이 생성될 것이다. 이렇게 생성된 영상을 어떻게 잘 활용할 수 있게 해줄 수 있을까를 고민하는 것이 트웰브랩스의 방향성이면서 비즈니스 해답이다.”
트웰브랩스 이승준 CTO에게 물은 ‘영상 분야에서의 AI와 회사의 전략’에 대한 대답은 짧은 한 문장으로도 설명될 정도로 명확했다. 그도 그럴 것이 영상 데이터를 이해하고 그 기술을 바탕으로 검색할 수 있는 솔루션이 곧 트웰브랩스이기 때문이다.
트웰브랩스는 기술력을 인정받아 올해 6월 5000만달러(약 700억원) 규모의 시리즈A 투자를 유치했다. 국내에서는 올해 스타트업 투자 규모 중 두 번째에 해당된다. 특히 이 투자에 엔비디아가 참여했다는 사실로도 업계의 이목을 집중케 했다.
이승준 CTO는 “영상 AI 분야에서만큼은 빅테크 기업과도 견줄 수 있는 경쟁력을 갖추고 있다. 비즈니스 전략 또한 차별화 포인트가 있다”고 말하며 앞으로의 성장 가능성에 힘을 실었다.
이승준 CTO에게 트웰브랩스의 영상 AI 기술과 비즈니스 전략, 그리고 빅테크 기업과 경쟁할 수 있는 차별점은 무엇인지에 대해 들어봤다. 이하는 일문일답이다.
이승준 CTO는 트웰브랩스의 공동창업자로 미국 브라운대학교 컴퓨터과학 및 응용수학을 전공했다. 트웰브랩스는 군대에서의 인연으로 시작하게 됐다.
― 앞으로는 영상을 잘 활용해야 한다고 했다. 구체적으로 설명해달라.
“영상을 잘 활용하기 위한 요건은 크게 두 가지다. 먼저 검색이 가능해져야 한다. 생각해보면 영상 데이터들이 어딘가에 저장돼 있을 것이다. 이러한 상태에서 자연어로 원하는 영상을 찾아내고 가져오는 것은 대단히 어렵다. 그래서 자연어 검색이 가능해져야 한다. 가령 ‘남자 5명이 서 있는 장면을 보여줘’라고 지시하면 해당 영상을 찾아줘야 한다는 것이다. 그걸 찾아주는 것이 우리의 첫 번째 모델 ‘마랭고(Marengo)’다.
두 번째 요건은 영상 자동화다. 예를 들어 특정 영상에 대해 광고에 활용하기 적합해 보이는지를 판단하고, 원하는 부분만 요약하거나 하이라이트를 만드는 등의 작업은 이제까지 사람이 직접 수행하는 영역이었다. 이 작업을 AI로 자동화해주는 모델이 ‘페가수스(Pegasus)’다.
정리하면 트웰브랩스는 새롭게 생성하는 게 아니라 생성돼 있는 영상들을 어떻게 하면 편하게 사용할 수 있게 해줄까를 고민하는 스타트업이라고 보면 된다.”
― 이미지를 인식하는 것은 정지된 한 장이기 때문에 어느정도 인식의 기술적 구조를 가늠할 수 있을 것 같다. 반면 영상은 1초에 30프레임, 많게는 60프레임인데 이를 어떻게 인식하는지 기술적으로 가늠이 잘 안 된다.
“그렇다. 어렵다. 이미지 이해 모델과는 다른 부분이 크게 두 가지다. 이미지는 하나의 프레임이기 때문에 ‘공간 이해(Spatial Understanding)’만 하면 된다. 반면 영상은 공간뿐만 아니라 시간을 이해해야 된다.
두 번째로는 시각적 요소뿐만 아니라 청각적 요소가 들어가기 때문에 청각적 이해도 필요하다. 그래서 데이터뿐만 아니라 그에 맞는 모델 구조 학습 방법론이 추가적으로 필요하다.”
― 시간을 이해해야 한다는 어떤 것인가.
“가령 1초에 30프레임이라고 하면 30개의 이미지를 별도로 프로세싱 하는게 일반적이다. 하지만 이를 시간 순으로 인식해 한꺼번에 프로세싱하는 방법을 쓴다. 이 과정에서 시각적 부분과 공간적 부분이 상호작용하게 된다. 이를 토크나이징(Tokenizing)이라고 한다. 트웰브랩스는 토크나이징 기술을 주로 개발하고 있다.
사실 이전에는 영상 이해 기술이란게 없었다. 다만 이미지 인식 기술을 변형시켜 영상 부분에 활용하는 수준이었다. 가령 GPT-V(Vision)의 경우 이미지를 인식하는데 이미지 몇 개를 한꺼번에 프로세싱 해서 최종 결과를 통합하는 등의 방식을 사용했다.”
― 비슷한 영상 모델이 있나.
“구글의 제미나이(Gemini) 같은 경우가 대표적이다. 다만 트웰브랩스와의 접근 방식에는 차이가 있다. 제미나이는 영상 이해뿐 아니라 다양한 AI 모델을 운영해야 하기 때문에 모델 규모가 크고 컴퓨팅 자원도 많이 필요하다.
반면 우리 모델의 경우 영상 이해에 특화된 모델을 더 효율적이고 컴팩트하게 구축하는 데 중점을 두고 있다. 기업들을 보면 영상 데이터가 1000시간 이상인 경우가 많다. 그런 대용량의 영상 데이터를 원활하게 처리하려면 모델 사이즈도 매우 중요한 요소다.”
― 트웰브랩스는 기술경쟁력을 입증해 1000억원 이상의 투자를 받았다. 하지만 현재 빅테크 기업들이 AI 모델을 빠르게 발전시키고 있는 상황에서 경쟁력을 이어갈 수 있을지 우려도 된다.
“서로 다른 문제를 풀고 있다고 생각한다. 기업들은 범용 AI를 발전시켜나갈 것이고 우리는 고객의 문제를 해결할 수 있는 데 집중한다. 물론 그 과정에서 겹치는 부분이 있기도 하겠지만 결국 고객이 실제로 필요로 하는 문제를 해결할 수 있는 제품과 기술을 제공한다는 측면에서는 방향이 다르다고 본다.
가령 언어 모델을 만든다고 하더라도 우리는 스타트업으로써, 고객이 필요로하는 모델과 이를 기반으로 하는 도메인 특화 서비스를 제공하는 데서 차별점을 찾아나가고자 한다.”
― 엔비디아로부터 투자를 받았다. 투자뿐만 아니라 기술 개발도 함께 진행한다고 들었다.
“정확하게는 모델 개발은 우리가 하고 있다. 엔비디아의 경우 반도체를 제공하는 입장에서 저희 모델을 효율적으로 실행할 수 있도록 설계하고 개선하는 협력을 하고 있다고 보면 된다. 특히 우리가 영상 AI에 특화된 기술적 요구 사항을 제시하면 엔비디아가 이를 바탕으로 새로운 추론 칩 개발을 진행하는 공생 관계를 유지하고 있다.
영상 AI 모델은 반드시 엔비디아 칩 기반에서만 구동되는 것은 아니다. 다른 AI 칩 환경에서도 동일한 성능을 발휘한다. 그런 측면에서 엔비디아 외에 AI 반체 기업들, 특히 국내 AI 반도체 기업들과도 협력하고 있다.”
― 트웰브랩스의 영상 AI는 어느 산업에서 주로 활용되나.
“특정 산업에 국한돼 있는 서비스 모델은 아니다. 영상이 생성되고 활용되는 모든 산업에서 활용된다고 보면 된다. 주로 활용되는 분야를 꼽으면 미디어, 엔터테인먼트, 스포츠, 보안 등이다. 특히 미디어와 엔터테인먼트 분야에서는 영상 콘텐츠 제작 효율을 높이거나 과거의 영상 데이터를 빠르게 검색하고 편집하는 기능으로 활용될 수 있다. 예를 들면 1000시간 촬영한 영상을 1시간으로 편집되는 다큐멘터리를 만들 때, 10년 전 영상을 가져와 편집하는 영상을 만들 때 시간을 크게 줄일 수 있다.
보안과 공공 안전 측면에서는 CCTV 분석이나 사건 요약 등으로 활용 가능하다. 담당자 한 명이 보통 30~40개의 CCTV를 모니터링 하는데 효율성을 기대할 수 없는 구조다. 영상 AI 모델을 통해 그날 있었던 주요 사건이나 움직임을 요약할 수 있고 빠르게 검색할 수 있다.”
― 유튜버나 영상 전문가처럼 영상 촬영/편집을 주업으로 하는 개인들도 쓸 수 있는 모델이 될 것 같다.
“맞다. 우리도 그런 방향성을 갖는다. 유튜버와 같은 크리에이터들도 쉽게 사용할 수 있도록 모델을 발전시키고 있다.
보통 텍스트 데이터는 주로 인터넷에서 생성된다. 반면 영상 데이터는 카메라가 있는 곳이라면 어디서든 생성될 수 있다. 우리는 이 점을 중요하게 보고 있다. 우리의 영상 AI 모델이 궁극적으로 카메라에 모델이 탑재돼 영상 데이터를 처리할 수 있도록 하는 것이 목표다. 그렇게 되면 휴대폰이나 카메라 자체에 모델을 내장해 하나의 센서처럼 사용되거나 주변 환경을 이해하는 데 활용될 수 있을 것이다. 이런 접근이 영상 AI를 더 가깝게 만들어 줄 거라고 생각한다.”
― 트웰브랩스의 비전은.
“트웰브랩스는 영상 이해 기술을 선도적으로 발전시키고자 한다. 궁극적으로는 ‘챗GPT 모먼트’와 같은 혁신적인 순간이 영상 AI 분야에서도 오기를 바라고 있다.
기술 개발 과정에서 중요한 요소는 뛰어난 인재 확보와 그래픽처리장치(GPU) 같은 인프라의 안정적 구축이다. GPU 인프라의 경우 이미 여러 파트너십을 통해 국내 최고 수준의 학습 인프라를 확보한 상태다. 이를 바탕으로 고객사들의 핵심 니즈를 충족하는 모델을 개발하는 데 집중하고 있다.
현재는 대부분의 솔루션이 클라우드 기반에서 제공되고 있지만 우리는 장기적으로 카메라 같은 디바이스에 직접 모델을 탑재할 수 있도록 경량화된 기술 개발도 진행하고 있다. 향후에는 엣지 및 온디바이스 환경까지 대응할 수 있는 기술을 확보해 개인 기기에서 영상 AI를 실시간으로 활용할 수 있는 미래를 만들어 나갈 계획이다.”
조상록 기자 jsrok@chosunbiz.com