数据集
基于事件驱动合成的纵向健康数据评测集,月度更新,托管于 HuggingFace,覆盖五个评测维度
测试数据集于每月最后一天开放下载,榜单提交入口于当天 12:00–16:00(UTC+8)开放,请参与者在提交窗口内完成结果上传。榜单将于次月 1 日凌晨统一刷新。验证集永久开放,HMA 将不定期更新验证集内容,敬请持续关注!
发布于 2026-03-24
历史版本
| Batch | 发布日期 | 用户数 | 用例数 | 下载 |
|---|---|---|---|---|
| 202604latest | 2026-03-24 | 45 | 4,500 | HuggingFace |
| 202603 | 2026-03-04 | 120 | 12,000 | HuggingFace |
数据集简介
ESL-Bench 数据集基于事件驱动合成数据生成框架构建,该框架将健康事件建模为具有显式生理响应核的一等时序对象,通过三阶段流水线(用户初始化 → 事件驱动每日模拟 → 结构化导出)生成纵向多模态健康记录。ESL-Bench 专为评估纵向健康 Agent 的结构化检索、规划和时序推理能力而设计。
每个虚拟用户覆盖 1-3 年的完整健康轨迹 — 包括个人档案、每日设备指标流、稀疏体检记录和结构化事件日志。事件通过显式的 sigmoid-onset 和 exponential-decay 时间核驱动指标变化,所有评测问题的标准答案均由导出的结构化数据程序化计算,确保 Ground Truth 的确定性和可验证性,从根本上解决了医疗数据的合规困境(无需真实患者数据)。
数据集托管于 HuggingFace,完全开源,支持社区监督与纠错。
评测维度
每个虚拟用户的 100 道题目覆盖 5 个评测维度(每维度 20 题),从数据查询到因果解释:
直接数据检索:查询用户档案属性、指定日期的设备指标值、体检结果、事件属性等。包含对抗性指标对(如 blood WBC vs. urine WBC、hs-CRP vs. CRP)以防止捷径。
时序趋势分析:包括月度聚合、变化率计算、连续趋势识别、波动率分析和 Regime 变化检测。考察 Agent 对时序数据的模式识别能力。
跨事件或跨数据源的对比分析:事件前后指标变化、多事件的共享指标重叠、严重度排序。文本检索方法在此维度开始显著落后。
异常检测与追踪:包括阈值超限检查、异常连续天数统计、多指标异常聚类识别、跨体检的恶化趋势追踪。考察 Agent 发现和追踪健康异常的能力。
因果归因与证据组织:从指标的基线偏移出发,识别贡献事件、按影响量级排序并组织证据链。采用程序化检查 + Rubric 混合评分。
更新机制
数据集采用月度更新机制,每个月发布一个新的 batch(如 202603 表示 2026 年 3 月批次)。
月度更新确保评测数据定期刷新,防止模型对固定题集的过拟合,同时保留历史版本支持纵向对比。
数据集文件结构
数据集托管于 HuggingFace,按 batch / 用户两级目录组织。每个 batch 以 <codeYYYYMM/> 命名(如 <code202603/>),代表当月发布的最新一期评测数据。评测时仅使用最新 batch 中的用户数据,历史 batch 保留用于版本追溯和纵向对比。
每用户文件详解
profile.json用户档案(Profile p_i):人口统计、慢性病、生活方式、用药史等结构化 JSON
timeline.json完整健康时间线:按时间排序的所有设备指标、体检数据和健康事件的统一时序视图
kg_evaluation_queries.json评测题目集:100 道五维度评测问题(Lookup/Trend/Comparison/Anomaly/Explanation),每题包含标准答案(expected_value)、答案类型(answer_type)、关键点(key_points)和源数据引用(source_data)
manifest.json 是仓库的版本索引文件,记录所有 batch 的创建时间、用户列表、checksum。HMA 平台通过读取该文件自动检测数据集更新。
ESL-Bench 数据赏金计划
我们正式发起 ESL-Bench Data Bounty Program,邀请社区共同完善 ESL-Bench——Health Memory Arena(HMA)的评测数据集,也是首个全面评估健康 AI Agent 记忆能力的基准。本期活动时间:2026 年 3 月 31 日至 4 月 30 日。
有效的问题报告可获得 $10–$50 美元(¥100–¥500 人民币)现金奖励。奖励金额将在审核通过后通过官方邮件确认。同一问题仅奖励第一位提交者,提交前请先搜索现有 Discussion 避免重复。
合格的报告类型
- 问答对错误(标准答案错误、问题模糊不清)
- 子集之间的数据逻辑不一致
- 标注或标签错误
- 影响评测有效性的基准设计问题
不予受理
- 无证据支持的主观意见
- 与已报告问题重复
- 不完整的提交(缺少必填字段)
如何提交
在 HuggingFace 发起新 Discussion,标题以 [Data Bounty] 开头,包含以下信息:
Subset(如 user_events / qa_pairs)· Row/ID(如 User_ID_045)· Error Type(Causal / Value / Temporal / Missing / Systematic / Q&A)· Description(问题描述及原因)· Correction(建议修正)· Reference(PubMed / WHO / 指南,如适用)
我们将在 5 个工作日内回复。有效提交将通过 Discussion 通知并以官方邮件发放奖励。
提交示例
[Data Bounty] Missing / Empty timeline.json for 5 users — 23 queries unanswerable from source data
Subset: data/202604
Row/ID: user5027_AT_demo
Error Type: Q&A Pair Error
Description: 上述用户的 kg_evaluation_queries.json 包含需要从 timeline.json 获取设备指标数据的查询,但对应的文件缺失或为空(0 条记录),导致 23 个查询无法验证。
Correction: 为所有受影响的用户提供完整的 timeline.json 文件
Reference: 数据完整性问题——无需医学文献参考
如有疑问,请通过 HuggingFace Discussion 留言或发送邮件至 support@healthmemoryarena.ai