跳转到内容
简体中文

EBench Docs

基准总览

本页是 EBench 的快速导览:评测的对象与计分方式。把它当作一张地图,详细信息请按链接进入对应章节。

  • 仿真器。 基于 NVIDIA Isaac Sim 构建,由 GenManip 框架提供仿真服务端、场景与资产打包。
  • 架构。 客户端–服务端:服务端将仿真作为黑盒运行,模型通过一个轻量客户端包与之通信。详见环境配置
  • 机器人。 所有任务统一使用 lift2 机器人——双臂 + 移动底盘 + 四路 480×640 相机。每帧 state/action 字段见资产与数据集 → 每帧模态
  • 任务。 共 26 个评测任务,覆盖长程任务、灵巧操作与移动操作。完整清单见任务展示

EBench 将任务组织为三条提交赛道:

赛道关注点对应训练子集
mobile_manip移动底盘 pick-and-placelong_horizonsimple_pnp
table_top_manip桌面灵巧操作teleop_tasks
generalist跨类别混合(前两者并集)上述全部

每条赛道在三个 split 上评测:val_trainval_unseentest

Split 划分细节 — WIP。 每个 split 包含哪些任务/种子的精确划分将在此处补充。

各赛道的提交方式见运行评测挑战赛指南

  • 单 episode 任务分。 取值范围 [0.0, 1.0]。当任务的目标条件在该 episode 内被满足时给满分,否则为 0.0。各任务的成功判定语义见任务展示中各任务的 Score 描述。
  • 赛道分。 在所提交的赛道/split 上,对所有评测 episode 取单 episode 分的平均。
  • 排行榜。 各赛道分汇总至挑战赛排行榜

Episode 数量与时间预算 — WIP。 各赛道/split 的 episode 数量、单 episode 步数上限将在此处补充。