数据集

基于事件驱动合成的纵向健康数据评测集，月度更新，托管于 HuggingFace，覆盖五个评测维度

测试数据集于每月最后一天开放下载，榜单提交入口于当天 12:00–16:00（UTC+8）开放，请参与者在提交窗口内完成结果上传。榜单将于次月 1 日凌晨统一刷新。验证集永久开放，HMA 将不定期更新验证集内容，敬请持续关注！

202604LATEST

发布于 2026-03-24

查看数据集

评测用例

虚拟用户

难度等级

历史版本

Batch	发布日期	用户数	用例数	下载
202604latest	2026-03-24	45	4,500	HuggingFace
202603	2026-03-04	120	12,000	HuggingFace

数据集简介

ESL-Bench 数据集基于事件驱动合成数据生成框架构建，该框架将健康事件建模为具有显式生理响应核的一等时序对象，通过三阶段流水线（用户初始化 → 事件驱动每日模拟 → 结构化导出）生成纵向多模态健康记录。ESL-Bench 专为评估纵向健康 Agent 的结构化检索、规划和时序推理能力而设计。

每个虚拟用户覆盖 1-3 年的完整健康轨迹 — 包括个人档案、每日设备指标流、稀疏体检记录和结构化事件日志。事件通过显式的 sigmoid-onset 和 exponential-decay 时间核驱动指标变化，所有评测问题的标准答案均由导出的结构化数据程序化计算，确保 Ground Truth 的确定性和可验证性，从根本上解决了医疗数据的合规困境（无需真实患者数据）。

数据集托管于 HuggingFace，完全开源，支持社区监督与纠错。

评测维度

每个虚拟用户的 100 道题目覆盖 5 个评测维度（每维度 20 题），从数据查询到因果解释：

L1lookup查询（20%）

直接数据检索：查询用户档案属性、指定日期的设备指标值、体检结果、事件属性等。包含对抗性指标对（如 blood WBC vs. urine WBC、hs-CRP vs. CRP）以防止捷径。

该用户 2024-03-15 的静息心率是多少？某次体检中 TSH 的值和参考范围？哪个事件影响了最多的指标？

L2trend趋势（20%）

时序趋势分析：包括月度聚合、变化率计算、连续趋势识别、波动率分析和 Regime 变化检测。考察 Agent 对时序数据的模式识别能力。

哪个月的静息心率环比变化最大？某指标的最佳/最差季度均值？某指标在哪个日期发生了 Regime 变化？

L3comparison对比（20%）

跨事件或跨数据源的对比分析：事件前后指标变化、多事件的共享指标重叠、严重度排序。文本检索方法在此维度开始显著落后。

started jogging 前后平均步数对比？哪些事件与 high-sodium diet 共享受影响指标？多事件间的严重度排序对比

L4anomaly异常（20%）

异常检测与追踪：包括阈值超限检查、异常连续天数统计、多指标异常聚类识别、跨体检的恶化趋势追踪。考察 Agent 发现和追踪健康异常的能力。

空腹血糖是否曾被标记为异常？哪些体检中空腹血糖和 HbA1c 同时异常？多指标异常聚类与因果链分析

L5explanation解释（20%）

因果归因与证据组织：从指标的基线偏移出发，识别贡献事件、按影响量级排序并组织证据链。采用程序化检查 + Rubric 混合评分。

空腹血糖下降的贡献事件及其排序？反事实分析：移除某事件后指标的预期变化？基于证据链的指标变化归因解释

更新机制

数据集采用月度更新机制，每个月发布一个新的 batch（如 202603 表示 2026 年 3 月批次）。

数据生成 — 通过 ThetaGen 事件驱动合成引擎生成新一批虚拟用户数据，每批约 20 个用户，每用户 100 道评测题

发布至 HuggingFace — 更新 manifest.json 并上传新 batch 用户数据到仓库，旧 batch 保留不删除

平台自动同步 — HMA 平台自动检测 manifest 变更，同步最新版本信息，榜单上的 Agent 将基于最新数据集重新评测

月度更新确保评测数据定期刷新，防止模型对固定题集的过拟合，同时保留历史版本支持纵向对比。

数据集文件结构

数据集托管于 HuggingFace，按 batch / 用户两级目录组织。每个 batch 以 <codeYYYYMM/> 命名（如 <code202603/>），代表当月发布的最新一期评测数据。评测时仅使用最新 batch 中的用户数据，历史 batch 保留用于版本追溯和纵向对比。

# HuggingFace 仓库根目录

manifest.json# 版本索引：所有 batch 的发布日期、用户列表、checksum

data/

202603/# 当期最新 batch（2026 年 3 月发布，包含 20 个虚拟用户）

user100_AT_demo/# 虚拟用户目录（目录名即用户标识）

profile.json

timeline.json

kg_evaluation_queries.json

user101_AT_demo/# 同结构，每用户 6 个文件

...

202602/# 历史 batch（保留用于版本追溯，不参与当期评测）

...

每用户文件详解

profile.json

用户档案（Profile p_i）：人口统计、慢性病、生活方式、用药史等结构化 JSON

timeline.json

完整健康时间线：按时间排序的所有设备指标、体检数据和健康事件的统一时序视图

kg_evaluation_queries.json

评测题目集：100 道五维度评测问题（Lookup/Trend/Comparison/Anomaly/Explanation），每题包含标准答案（expected_value）、答案类型（answer_type）、关键点（key_points）和源数据引用（source_data）

manifest.json 是仓库的版本索引文件，记录所有 batch 的创建时间、用户列表、checksum。HMA 平台通过读取该文件自动检测数据集更新。

ESL-Bench 数据赏金计划

我们正式发起 ESL-Bench Data Bounty Program，邀请社区共同完善 ESL-Bench——Health Memory Arena（HMA）的评测数据集，也是首个全面评估健康 AI Agent 记忆能力的基准。本期活动时间：2026 年 3 月 31 日至 4 月 30 日。

$10–$50 / 报告

有效的问题报告可获得 $10–$50 美元（¥100–¥500 人民币）现金奖励。奖励金额将在审核通过后通过官方邮件确认。同一问题仅奖励第一位提交者，提交前请先搜索现有 Discussion 避免重复。

合格的报告类型

问答对错误（标准答案错误、问题模糊不清）
子集之间的数据逻辑不一致
标注或标签错误
影响评测有效性的基准设计问题

不予受理

无证据支持的主观意见
与已报告问题重复
不完整的提交（缺少必填字段）

如何提交

在 HuggingFace 发起新 Discussion，标题以 [Data Bounty] 开头，包含以下信息：

Subset（如 user_events / qa_pairs）· Row/ID（如 User_ID_045）· Error Type（Causal / Value / Temporal / Missing / Systematic / Q&A）· Description（问题描述及原因）· Correction（建议修正）· Reference（PubMed / WHO / 指南，如适用）

我们将在 5 个工作日内回复。有效提交将通过 Discussion 通知并以官方邮件发放奖励。

提交示例

[Data Bounty] Missing / Empty timeline.json for 5 users — 23 queries unanswerable from source data

Subset: data/202604

Row/ID: user5027_AT_demo

Error Type: Q&A Pair Error

Description: 上述用户的 kg_evaluation_queries.json 包含需要从 timeline.json 获取设备指标数据的查询，但对应的文件缺失或为空（0 条记录），导致 23 个查询无法验证。

Correction: 为所有受影响的用户提供完整的 timeline.json 文件

Reference: 数据完整性问题——无需医学文献参考

前往提交HMA 团队对所有报告的有效性拥有最终解释权

如有疑问，请通过 HuggingFace Discussion 留言或发送邮件至 support@healthmemoryarena.ai