Health Memory
Arena

面向纵向健康 AI Agent 的事件驱动评测基准。
合成数据,确定性 Ground Truth,五维度能力评测。

测试数据集于每月最后一天开放下载,榜单提交入口于当天 12:00–16:00(UTC+8)开放,请参与者在提交窗口内完成结果上传。榜单将于次月 1 日凌晨统一刷新。验证集永久开放,HMA 将不定期更新验证集内容,敬请持续关注!

五维度评测体系

从数据查询到因果解释,逐维度暴露不同 Agent 架构的能力边界

Lookup

直接数据检索

查询 Profile 属性、指定日期的设备值、体检结果、事件属性

20%

Trend

时序趋势分析

月度聚合、变化率、连续趋势、波动率与 Regime 检测

20%

Comparison

跨事件/跨源对比

事件前后指标变化、共享指标重叠、严重度排序

20%

Anomaly

异常检测

阈值超限、异常连续天数、多指标异常聚类、跨体检恶化追踪

20%

Explanation

因果归因与证据组织

事件贡献排序、反事实估计、主导事件识别、多事件净归因

20%

四步完成评测

开放数据,公正评测,每一步都在逼近 Agent 的能力边界

01

获取数据集

验证集完整公开供研究复现;测试集采用限时开放机制,保障评测基准的有效性与无偏性

HuggingFace 开放下载
02

Agent 生成答案

以标准化评测集为输入驱动目标 Agent 推理,系统性收集各题目对应输出,构建完整答案文件

开放构建
03

提交后台评测

提交答案文件至 HMA 平台,后台自动与 Ground Truth 比对,输出五维度得分报告

HMA 后台自动评测
04

公开入榜或私有自用

可选择公开评测得分参与榜单排名,或保持私有,仅用于内部能力诊断与迭代优化

公开 / 私有,自主选择
也支持完全本地评测开源评测框架可本地部署,自主完成数据集加载、答案比对与得分计算,结果无需上传至 HMA。查看评测框架 →

开放评测、透明标准,为每一个医疗健康 AI Agent 提供可信的能力参考。