OpenAI近日在医疗健康领域迈出了重要一步,宣布推出并开源了专为医疗大模型设计的测试评估集——HealthBench。这一举措旨在更精确地评估AI系统在医疗健康领域的表现。
与以往的测试集相比,HealthBench在多个维度上实现了突破。其核心测试对话集由262名医生精心打造,他们来自60个国家和地区的26个专业,确保了测试内容的难度、真实性和丰富性。这些医生的专业背景使得HealthBench能够覆盖广泛的健康场景和行为维度。
具体而言,HealthBench包含了48562个独特的医生评分标准,这些标准不仅涵盖了紧急情况和全球健康等多个健康背景,还涉及准确性、遵循指示和沟通等多个行为维度。这种开放式评估方式,使得HealthBench能够更全面地反映AI系统在医疗场景中的实际应用能力。
HealthBench在测试方式上也有所创新。它采用了多轮对话测试,而非简单的答题或选择题模式。这种测试方式更贴近真实医疗场景中的对话交流,有助于更准确地评估AI系统的理解和应对能力。
测试数据显示,HealthBench的推出对AI系统在医疗保健领域的表现产生了积极影响。例如,GPT-3.5Turbo在HealthBench上的得分从16%提升至GPT-4o的32%,而更先进的o3模型则达到了60%的得分,整体性能有了显著提升。尤其是小型模型方面,GPT-4.1nano不仅在性能上超越了GPT-4o,而且在成本上降低了25倍,展现了巨大的潜力和价值。