测试数据集于每月最后一天开放下载,榜单提交入口于当天 12:00–16:00(UTC+8)开放,请参与者在提交窗口内完成结果上传。榜单将于次月 1 日凌晨统一刷新。验证集永久开放,HMA 将不定期更新验证集内容,敬请持续关注!
五维度评测体系
从数据查询到因果解释,逐维度暴露不同 Agent 架构的能力边界
Lookup
直接数据检索
查询 Profile 属性、指定日期的设备值、体检结果、事件属性
20%
Trend
时序趋势分析
月度聚合、变化率、连续趋势、波动率与 Regime 检测
20%
Comparison
跨事件/跨源对比
事件前后指标变化、共享指标重叠、严重度排序
20%
Anomaly
异常检测
阈值超限、异常连续天数、多指标异常聚类、跨体检恶化追踪
20%
Explanation
因果归因与证据组织
事件贡献排序、反事实估计、主导事件识别、多事件净归因
20%
四步完成评测
开放数据,公正评测,每一步都在逼近 Agent 的能力边界
01
获取数据集
验证集完整公开供研究复现;测试集采用限时开放机制,保障评测基准的有效性与无偏性
HuggingFace 开放下载02
Agent 生成答案
以标准化评测集为输入驱动目标 Agent 推理,系统性收集各题目对应输出,构建完整答案文件
开放构建03
提交后台评测
提交答案文件至 HMA 平台,后台自动与 Ground Truth 比对,输出五维度得分报告
HMA 后台自动评测04
公开入榜或私有自用
可选择公开评测得分参与榜单排名,或保持私有,仅用于内部能力诊断与迭代优化
公开 / 私有,自主选择开放评测、透明标准,为每一个医疗健康 AI Agent 提供可信的能力参考。