数据集

基于事件驱动合成的纵向健康数据评测集,月度更新,托管于 HuggingFace,覆盖五个评测维度

测试数据集于每月最后一天开放下载,榜单提交入口于当天 12:00–16:00(UTC+8)开放,请参与者在提交窗口内完成结果上传。榜单将于次月 1 日凌晨统一刷新。验证集永久开放,HMA 将不定期更新验证集内容,敬请持续关注!

202604LATEST

发布于 2026-03-24

查看数据集
0
评测用例
0
虚拟用户
0
难度等级
0
历史版本

历史版本

Batch发布日期用户数用例数下载
202604latest2026-03-24454,500HuggingFace
2026032026-03-0412012,000HuggingFace

数据集简介

ESL-Bench 数据集基于事件驱动合成数据生成框架构建,该框架将健康事件建模为具有显式生理响应核的一等时序对象,通过三阶段流水线(用户初始化 → 事件驱动每日模拟 → 结构化导出)生成纵向多模态健康记录。ESL-Bench 专为评估纵向健康 Agent 的结构化检索、规划和时序推理能力而设计。

每个虚拟用户覆盖 1-3 年的完整健康轨迹 — 包括个人档案、每日设备指标流、稀疏体检记录和结构化事件日志。事件通过显式的 sigmoid-onset 和 exponential-decay 时间核驱动指标变化,所有评测问题的标准答案均由导出的结构化数据程序化计算,确保 Ground Truth 的确定性和可验证性,从根本上解决了医疗数据的合规困境(无需真实患者数据)。

数据集托管于 HuggingFace,完全开源,支持社区监督与纠错。

评测维度

每个虚拟用户的 100 道题目覆盖 5 个评测维度(每维度 20 题),从数据查询到因果解释:

L1lookup查询(20%)

直接数据检索:查询用户档案属性、指定日期的设备指标值、体检结果、事件属性等。包含对抗性指标对(如 blood WBC vs. urine WBC、hs-CRP vs. CRP)以防止捷径。

该用户 2024-03-15 的静息心率是多少?某次体检中 TSH 的值和参考范围?哪个事件影响了最多的指标?
L2trend趋势(20%)

时序趋势分析:包括月度聚合、变化率计算、连续趋势识别、波动率分析和 Regime 变化检测。考察 Agent 对时序数据的模式识别能力。

哪个月的静息心率环比变化最大?某指标的最佳/最差季度均值?某指标在哪个日期发生了 Regime 变化?
L3comparison对比(20%)

跨事件或跨数据源的对比分析:事件前后指标变化、多事件的共享指标重叠、严重度排序。文本检索方法在此维度开始显著落后。

started jogging 前后平均步数对比?哪些事件与 high-sodium diet 共享受影响指标?多事件间的严重度排序对比
L4anomaly异常(20%)

异常检测与追踪:包括阈值超限检查、异常连续天数统计、多指标异常聚类识别、跨体检的恶化趋势追踪。考察 Agent 发现和追踪健康异常的能力。

空腹血糖是否曾被标记为异常?哪些体检中空腹血糖和 HbA1c 同时异常?多指标异常聚类与因果链分析
L5explanation解释(20%)

因果归因与证据组织:从指标的基线偏移出发,识别贡献事件、按影响量级排序并组织证据链。采用程序化检查 + Rubric 混合评分。

空腹血糖下降的贡献事件及其排序?反事实分析:移除某事件后指标的预期变化?基于证据链的指标变化归因解释

更新机制

数据集采用月度更新机制,每个月发布一个新的 batch(如 202603 表示 2026 年 3 月批次)。

1
数据生成通过 ThetaGen 事件驱动合成引擎生成新一批虚拟用户数据,每批约 20 个用户,每用户 100 道评测题
2
发布至 HuggingFace更新 manifest.json 并上传新 batch 用户数据到仓库,旧 batch 保留不删除
3
平台自动同步HMA 平台自动检测 manifest 变更,同步最新版本信息,榜单上的 Agent 将基于最新数据集重新评测

月度更新确保评测数据定期刷新,防止模型对固定题集的过拟合,同时保留历史版本支持纵向对比。

数据集文件结构

数据集托管于 HuggingFace,按 batch / 用户两级目录组织。每个 batch 以 <codeYYYYMM/> 命名(如 <code202603/>),代表当月发布的最新一期评测数据。评测时仅使用最新 batch 中的用户数据,历史 batch 保留用于版本追溯和纵向对比。

# HuggingFace 仓库根目录
manifest.json# 版本索引:所有 batch 的发布日期、用户列表、checksum
data/
202603/# 当期最新 batch(2026 年 3 月发布,包含 20 个虚拟用户)
user100_AT_demo/# 虚拟用户目录(目录名即用户标识)
profile.json
timeline.json
kg_evaluation_queries.json
user101_AT_demo/# 同结构,每用户 6 个文件
...
202602/# 历史 batch(保留用于版本追溯,不参与当期评测)
...

每用户文件详解

profile.json

用户档案(Profile p_i):人口统计、慢性病、生活方式、用药史等结构化 JSON

timeline.json

完整健康时间线:按时间排序的所有设备指标、体检数据和健康事件的统一时序视图

kg_evaluation_queries.json

评测题目集:100 道五维度评测问题(Lookup/Trend/Comparison/Anomaly/Explanation),每题包含标准答案(expected_value)、答案类型(answer_type)、关键点(key_points)和源数据引用(source_data)

manifest.json 是仓库的版本索引文件,记录所有 batch 的创建时间、用户列表、checksum。HMA 平台通过读取该文件自动检测数据集更新。

ESL-Bench 数据赏金计划

我们正式发起 ESL-Bench Data Bounty Program,邀请社区共同完善 ESL-Bench——Health Memory Arena(HMA)的评测数据集,也是首个全面评估健康 AI Agent 记忆能力的基准。本期活动时间:2026 年 3 月 31 日至 4 月 30 日。

$10–$50 / 报告

有效的问题报告可获得 $10–$50 美元(¥100–¥500 人民币)现金奖励。奖励金额将在审核通过后通过官方邮件确认。同一问题仅奖励第一位提交者,提交前请先搜索现有 Discussion 避免重复。

合格的报告类型

  • 问答对错误(标准答案错误、问题模糊不清)
  • 子集之间的数据逻辑不一致
  • 标注或标签错误
  • 影响评测有效性的基准设计问题

不予受理

  • 无证据支持的主观意见
  • 与已报告问题重复
  • 不完整的提交(缺少必填字段)

如何提交

在 HuggingFace 发起新 Discussion,标题以 [Data Bounty] 开头,包含以下信息:

Subset(如 user_events / qa_pairs)· Row/ID(如 User_ID_045)· Error Type(Causal / Value / Temporal / Missing / Systematic / Q&A)· Description(问题描述及原因)· Correction(建议修正)· Reference(PubMed / WHO / 指南,如适用)

我们将在 5 个工作日内回复。有效提交将通过 Discussion 通知并以官方邮件发放奖励。

提交示例

[Data Bounty] Missing / Empty timeline.json for 5 users — 23 queries unanswerable from source data

Subset: data/202604

Row/ID: user5027_AT_demo

Error Type: Q&A Pair Error

Description: 上述用户的 kg_evaluation_queries.json 包含需要从 timeline.json 获取设备指标数据的查询,但对应的文件缺失或为空(0 条记录),导致 23 个查询无法验证。

Correction: 为所有受影响的用户提供完整的 timeline.json 文件

Reference: 数据完整性问题——无需医学文献参考

前往提交HMA 团队对所有报告的有效性拥有最终解释权

如有疑问,请通过 HuggingFace Discussion 留言或发送邮件至 support@healthmemoryarena.ai