AI와 의료의 만남, 헬스벤치(HealthBench) 발표
OpenAI는 의료 분야에서 인공지능(AI) 모델을 평가하기 위한 새로운 벤치마크인 헬스벤치(HealthBench)를 출시했다고 밝혔다. 이 벤치마크는 실제 의료 상황에서의 적용 가능성과 의사의 판단을 바탕으로 AI 모델의 성능을 평가하는 데 목적이 있다.
5,000개 대화로 구성된 평가 데이터
헬스벤치는 AI 모델과 사용자 또는 의료진 간의 상호작용을 시뮬레이션한 5,000개의 대화를 기반으로 설계되었다. AI 모델은 사용자가 마지막으로 남긴 메시지에 가장 적합한 응답을 제공하는 것을 목표로 한다.
262명의 의사가 개발에 참여
이 벤치마크는 60개국의 262명 의사들과의 협업을 통해 완성됐다. 참여 의사들은 49개 언어를 구사하며 26개의 의료 전문분야에서 훈련받았다. 또한 헬스벤치의 평가 기준은 의사들이 직접 설계한 척도를 이용해 작성되었으며, 총 48,562개의 고유 평가 기준이 포함됐다.
평가 기준: 다국어 및 실제 의료 맥락 반영
헬스벤치의 대화 데이터는 인공지능을 활용한 생성 기법과 인간에 의한 테스트를 결합하여 만들었으며, 다국어와 다양한 의료 전문 분야를 아우르는 내용을 포함했다. 각각의 AI 모델 응답은 해당 대화에서 정의된 구체적인 평가 기준에 따라 평가되며, 이상적인 응답에 포함되어야 할 요소와 피해야 할 요소에 대한 조건도 명확히 제시되었다.
평가는 GPT-4.1을 통해 진행되며, 모든 기준 충족 여부를 기반으로 한 종합 점수가 사용자에게 제공된다.
평가 주제: 7가지 주요 분야로 구성
헬스벤치는 다음 7가지 주제로 나뉘어 있다.
- 특화된 전문가 수준의 커뮤니케이션
- 응답의 깊이와 상세성
- 응급 상황에서의 의뢰 판단
- 건강 데이터 관리 업무
- 글로벌 보건 상황 대응
- 불확실한 상황에서의 적절한 대응
- 상황에 맞는 정보를 찾는 능력
이를 통해 헬스벤치는 AI 모델이 높은 영향력의 상황에서 어떤 행동을 보이는지 이해하고, 실질적 성과 향상을 유도하는 지표로 활용된다.
AI 모델 성능: 전문가 능력에 근접했지만 개선 여지 존재
OpenAI는 대규모 언어 모델의 성능이 시간이 지남에 따라 크게 향상되었음을 강조하며, 일부 사례에서는 전문가보다도 뛰어난 응답을 생성한 것으로 나타났다고 밝혔다. 그러나 명확하지 않은 질의에 대한 맥락 파악과 신뢰성 확보 등에서는 여전히 개선이 필요하다고 분석했다.
헬스벤치와 관련된 모든 자료는 GitHub를 통해 공개되어, 누구나 접근할 수 있도록 제공되고 있다.
출처 : 원문 보러가기