진단·치료까지?…대중형 헬스 AI 경쟁 속 ‘신뢰 평가’ 시급
||2026.03.31
||2026.03.31
[디지털투데이 AI리포터] 마이크로소프트(MS)와 아마존이 건강 상담용 인공지능(AI) 서비스를 잇달아 공개하며 '대중형 헬스 AI' 경쟁이 달아오르고 있다.
30일(현지시간) MIT 테크놀로지 리뷰에 따르면, 의료기기 연동 챗봇이 확산되는 가운데 진단과 중증도 분류 같은 고위험 영역에서 안전성과 유효성을 제3자가 충분히 평가했는지는 여전히 불투명하다는 지적이 이어지고 있다.
MS는 코파일럿(Copilot) 앱 내에 '코파일럿 헬스' 공간을 신설해 사용자가 의료기록을 연결하고 건강 관련 질문을 할 수 있도록 했다. 아마존은 대규모언어모델(LLM) 기반 도구 '헬스 AI'를 원메디컬(One Medical) 회원뿐 아니라 일반 사용자에게도 공개했다. 오픈AI는 1월 '챗GPT 헬스'를 출시했고, 앤트로픽의 '클로드'(Claude)도 이용자 동의가 있을 경우 건강 기록에 접근할 수 있다.
기업들은 모델 성능 향상과 이용 수요 증가를 출시 배경으로 제시한다. 도미닉 킹(Dominic King) MS AI 헬스 부문 부사장은 "생성형 AI가 건강 질문에 답하고 적절한 정보를 제공하는 능력에서 큰 진전을 보였다"라고 밝혔다. MS에 따르면 코파일럿에 하루 5000만 건의 건강 질문이 접수되며, 모바일 앱에서 건강 관련 질문이 가장 활발하게 논의되는 주제라고 한다. 오픈AI 헬스 AI팀의 카란 싱할(Karan Singhal) 역시 "챗GPT에서 건강 관련 질문이 빠르게 늘고 있다"라고 전했다.
문제는 AI를 어디까지 활용할 수 있느냐다. 운동 계획을 제안하거나 의사에게 물어볼 질문을 정리하는 정도는 상대적으로 위험이 적다. 하지만 응급 여부 판단, 진단, 치료 계획 제시 등은 사고로 이어질 가능성이 크다. 마운트사이내이 헬스 시스템 연구진은 최근 연구에서 챗GPT 헬스가 경미한 증상에 불필요한 진료를 권하거나 응급 상황을 놓칠 수 있다고 지적하며 논란을 불러일으켰다. 서비스들은 “진단·치료 목적이 아니다”라는 경고를 내걸지만, 내과 의사이자 연구자인 애덤 로드먼(Adam Rodman)은 "사용자들이 진단과 관리 목적으로 사용할 것이라는 사실을 모두가 안다"라고 말했다.
평가 방식도 논란이다. 오픈AI는 건강 상담 대화 응답을 평가하는 벤치마크 '헬스벤치'(HealthBench)를 공개했지만, 실제 사용 환경을 충분히 반영하지 못한다는 비판이 나온다. 앤드루 빈(Andrew Bean) 옥스퍼드 인터넷 연구소 박사과정의 연구팀은 "모델이 시나리오에서 정답을 맞히더라도, 비전문가가 LLM 도움을 받아 문제를 풀면 정답률이 3분의 1 수준으로 떨어질 수 있다"라고 지적했다. 빈은 "효과가 있는 모든 경로를 추구해야 한다"라며 "근거가 반드시 필요하다"라고 강조했다.
인간 대상 통제 시험이 해법으로 거론되지만 시간과 비용이 많이 든다. 구글은 비공개 의료 챗봇 에이미(AMIE)를 활용한 연구에서 진단 정확도가 의사와 유사하고 큰 안전 문제도 없었다고 공개했지만, 당장은 상용화를 계획하지 않았다. 결국 핵심은 기업 자체 점검을 넘어, 신뢰할 수 있는 제3자 평가가 얼마나 빠르게 자리 잡느냐로 모이고 있다.
고객님만을 위한 맞춤 차량
