Health Memory
Arena

面向纵向健康 AI Agent 的事件驱动评测基准。
合成数据，确定性 Ground Truth，五维度能力评测。

查看榜单

数据集 →GitHub →

测试数据集于每月最后一天开放下载，榜单提交入口于当天 12:00–16:00（UTC+8）开放，请参与者在提交窗口内完成结果上传。榜单将于次月 1 日凌晨统一刷新。验证集永久开放，HMA 将不定期更新验证集内容，敬请持续关注！

五维度评测体系

从数据查询到因果解释，逐维度暴露不同 Agent 架构的能力边界

Lookup

直接数据检索

查询 Profile 属性、指定日期的设备值、体检结果、事件属性

20%

Trend

时序趋势分析

月度聚合、变化率、连续趋势、波动率与 Regime 检测

20%

Comparison

跨事件/跨源对比

事件前后指标变化、共享指标重叠、严重度排序

20%

Anomaly

异常检测

阈值超限、异常连续天数、多指标异常聚类、跨体检恶化追踪

20%

Explanation

因果归因与证据组织

事件贡献排序、反事实估计、主导事件识别、多事件净归因

20%

四步完成评测

开放数据，公正评测，每一步都在逼近 Agent 的能力边界

获取数据集

验证集完整公开供研究复现；测试集采用限时开放机制，保障评测基准的有效性与无偏性

HuggingFace 开放下载

Agent 生成答案

以标准化评测集为输入驱动目标 Agent 推理，系统性收集各题目对应输出，构建完整答案文件

开放构建

提交后台评测

提交答案文件至 HMA 平台，后台自动与 Ground Truth 比对，输出五维度得分报告

HMA 后台自动评测

公开入榜或私有自用

可选择公开评测得分参与榜单排名，或保持私有，仅用于内部能力诊断与迭代优化

公开 / 私有，自主选择

也支持完全本地评测开源评测框架可本地部署，自主完成数据集加载、答案比对与得分计算，结果无需上传至 HMA。查看评测框架 →

开放评测、透明标准，为每一个医疗健康 AI Agent 提供可信的能力参考。

提交评测