手机版二维码

中文科技资讯 CWX中文科技资讯官方网站！

时事快闻

当前位置：中文科技 > 家电产品 > 正文内容

OpenAI发布医疗大模型测试集HealthBench，性能提升显著

时间：2025-05-13 09:24 来源：ITBEAR作者：冯璃月

OpenAI近日在医疗健康领域迈出了重要一步，宣布推出并开源了专为医疗大模型设计的测试评估集——HealthBench。这一举措旨在更精确地评估AI系统在医疗健康领域的表现。

与以往的测试集相比，HealthBench在多个维度上实现了突破。其核心测试对话集由262名医生精心打造，他们来自60个国家和地区的26个专业，确保了测试内容的难度、真实性和丰富性。这些医生的专业背景使得HealthBench能够覆盖广泛的健康场景和行为维度。

具体而言，HealthBench包含了48562个独特的医生评分标准，这些标准不仅涵盖了紧急情况和全球健康等多个健康背景，还涉及准确性、遵循指示和沟通等多个行为维度。这种开放式评估方式，使得HealthBench能够更全面地反映AI系统在医疗场景中的实际应用能力。

HealthBench在测试方式上也有所创新。它采用了多轮对话测试，而非简单的答题或选择题模式。这种测试方式更贴近真实医疗场景中的对话交流，有助于更准确地评估AI系统的理解和应对能力。

测试数据显示，HealthBench的推出对AI系统在医疗保健领域的表现产生了积极影响。例如，GPT-3.5Turbo在HealthBench上的得分从16%提升至GPT-4o的32%，而更先进的o3模型则达到了60%的得分，整体性能有了显著提升。尤其是小型模型方面，GPT-4.1nano不仅在性能上超越了GPT-4o，而且在成本上降低了25倍，展现了巨大的潜力和价值。

更多>同类内容

高速故障车“人肉警示”？交警：违规，罚！

05-13

《剑星》PC版宣传片提前曝光！6月11日发售，25套新时装来袭

05-13

Sonos Arc Ultra升级AI语音增强，四级模式助力清晰对话

05-13

宁德时代港股IPO火爆，超额认购21倍，融资额高达517亿港元

05-13

三星Galaxy S25 Edge震撼发布：最薄旗舰，性能与颜值并存！

05-13

英特尔及Arm处理器陷“Training Solo”漏洞，多架构需紧急修复

05-13

苹果2025年秋季将停用旧版HomeKit，用户需提前升级

05-13

苹果macOS 15.5新版上线，你收到更新提醒了吗？

05-13

华为5G随身WiFi Pro 5来袭：1549元享5G-A网络，续航12小时！

05-12

华为智驾5月升级：智能提醒加塞车，风险路段远光自适应切换

05-12

比亚迪纯电车销量登顶！连续两季度超越特斯拉

05-12

机械革命蛟龙16 Pro RTX 5070版今晚开售，国补价低至6799.2元！

05-12

上汽大众2024款朗逸5月购车特惠，限时价8.38万起，多项补贴等你拿！

05-12

奇瑞高管不当言论引争议，吉利回应：共促行业健康发展

05-12

日产汽车困境加剧：销量下滑净利润暴跌，裁员规模扩大至两万

05-12

点击查看更多 +

全站最新

OpenAI发布医疗大模型测试集HealthBench，性能提升显著

OpenAI发布医疗大模型测试集HealthBench，性能提升显著

铭瑄RTX 5050显卡8GB显存备案，英伟达RTX 50系列再添新成员？

铭瑄RTX 5050显卡8GB显存备案，英伟达RTX 50系列再添新成员？

极空间NAS新品“芯”世代即将发布，低功耗强性能引期待！

极空间NAS新品“芯”世代即将发布，低功耗强性能引期待！

哈雷与MotoGP强强联手，2026年全新全球摩托车锦标赛即将启幕！

哈雷与MotoGP强强联手，2026年全新全球摩托车锦标赛即将启幕！

佳能印度发言人：智能手机与AI浪潮不构成对专业相机的致命威胁

佳能印度发言人：智能手机与AI浪潮不构成对专业相机的致命威胁

美团骑手养老保险试点首批补贴到账，灵活参保无门槛受好评

美团骑手养老保险试点首批补贴到账，灵活参保无门槛受好评

热门内容

本栏最新

OpenAI发布医疗大模型测试集HealthBench，性能提升显著

OpenAI发布医疗大模型测试集HealthBench，性能提升显著

高速故障车“人肉警示”？交警：违规，罚！

高速故障车“人肉警示”？交警：违规，罚！

《剑星》PC版宣传片提前曝光！6月11日发售，25套新时装来袭

《剑星》PC版宣传片提前曝光！6月11日发售，25套新时装来袭

Sonos Arc Ultra升级AI语音增强，四级模式助力清晰对话

Sonos Arc Ultra升级AI语音增强，四级模式助力清晰对话

三星Galaxy S25 Edge震撼发布：最薄旗舰，性能与颜值并存！

三星Galaxy S25 Edge震撼发布：最薄旗舰，性能与颜值并存！

英特尔及Arm处理器陷“Training Solo”漏洞，多架构需紧急修复

英特尔及Arm处理器陷“Training Solo”漏洞，多架构需紧急修复

中文科技资讯 - 网界传媒旗下网站 / 中国（山东）自由贸易试验区 / 合作咨询微信：netspread（注明:中文科技资讯） / 鲁ICP备2022032383号
Copyright © CWX中文科技资讯 2012-2022 CWX.COM.CN All rights reserved.