EBench Docs
资产与数据集
两种数据采集来源——动作特征不同。 本次发布的数据集来自两条不同的采集流水线,请关注你训练所用的子集:
- 基于规则的生成(GenManip)。
long_horizon和simple_pnp由 GenManip 框架中的脚本化策略生成。轨迹平滑,子技能之间有清晰的行为边界。- 遥操作。
teleop_tasks由人类遥操作员在灵巧任务上采集。轨迹保留了人类风格——动作可能在中途出现抖动、犹豫或停顿。如果训练时混合使用,模型有可能继承遥操作的犹豫感。若评测对动作平滑性敏感,可加大 GenManip 子集权重,或对 teleop 数据进行过滤。
关键信息一览
Section titled “关键信息一览”| 子集 | 来源 | 评测赛道 | Episode 数 | 帧数(约) | 任务 |
|---|---|---|---|---|---|
long_horizon | 规则生成(GenManip) | mobile_manip、generalist | 9 × 200 = 1,800 | 3.6 M | 9 个长程任务族 |
simple_pnp | 规则生成(GenManip) | mobile_manip、generalist | 10 × 200 = 2,000 | 0.96 M | 10 个单步 pick-and-place |
teleop_tasks | 人类遥操作 | table_top_manip、generalist | 7 × 400 = 2,800 | 5.3 M | 7 个灵巧任务 |
EBench 共三条评测赛道:mobile_manip(移动底盘 pick-and-place)和 table_top_manip(桌面灵巧操作)覆盖两种专项场景,generalist 则是两者的并集——具体提交方式见运行评测。
所有子集共享相同的录制配置:15 fps,机器人类型 lift2(双臂 + 移动底盘),四路 480×640 相机视角(top、left、right、overlook)。
每个子集都是一个独立的 LeRobot v2.1 数据集,包含各自的任务族、meta 和分块的 parquet/视频文件:
saved/dataset/├── long_horizon/│ ├── <task_family>/ # 例如 bottle、dishwasher、make_sandwich……│ │ ├── data/chunk-000/episode_*.parquet│ │ ├── videos/chunk-000/<camera>/episode_*.mp4│ │ └── meta/{info,episodes,episodes_stats,modality,stats,tasks}.json(l)│ └── instruction_paraphrases_train_only.json├── simple_pnp/│ └── task1/ … task10/ # 同上结构└── teleop_tasks/ └── peg_in_hole/ install_gear/ … # 同上结构| 字段 | 形状 | 说明 |
|---|---|---|
state.joints、action.joints、action.joints_delta | (12,) | 双臂关节位置(6 + 6) |
state.gripper、action.gripper | (4,) | 左右夹爪,每只夹爪两个手指状态 |
state.ee_pose、action.ee_pose、action.ee_pose_delta | (14,) | 左右末端位置 (xyz) + 四元数 (wxyz) |
state.base、action.base、action.base_delta | (3,) | 底盘 x, y, theta |
video.{top,left,right,overlook}_camera_view | (3, 480, 640) | AV1 编码 MP4,15 fps |
*_delta 字段是相同物理量的增量形式——按你的策略控制方式选用即可。每个任务的 meta/modality.json 列出了暴露给 LeRobot 加载器的标准 state/action/video 键。
long_horizon —— 9 个长程任务族,每族 200 个 episode:
bottle、detergent、dish、dishwasher、fruit、make_sandwich、microwave、pen、shop。
simple_pnp —— 10 个单步 pick-and-place 任务(task1–task10),每个 200 个 episode。示例:叉勺 → 餐具架、书签 → 书本、肥皂 → 皂盒、苹果 → 果盘、遥控器 → 遥控架、香水 → 化妆架、盐 → 调料架、从架子上取苹果、茶杯与茶壶、碗叠到盘子。
teleop_tasks —— 7 个灵巧任务,每个 400 个 episode:
collect_coffee_beans、flip_cup_collect_cookies、frame_against_pen_holder、install_gear、peg_in_hole、put_glass_in_glassbox、tighten_nut。
每个 episode 都配有自然语言指令,并且数据集为每个任务提供多条同义改写。标准指令位于各子集的 meta/tasks.jsonl;long_horizon 还额外提供 instruction_paraphrases_train_only.json,用于训练阶段的更多措辞。训练时随机采样改写可以让策略对指令措辞更稳健。
从 Hugging Face 下载评测资产到 saved/ 目录:
huggingface-cli download InternRobotics/EBench-Assets --local-dir saved --repo-type dataset下载完成后应当看到:
GenManip/├── saved/│ ├── assets/│ ├── tasks/│ └── eval_results/ ← 评测时自动生成└── ...训练数据集(LeRobot 格式)
Section titled “训练数据集(LeRobot 格式)”huggingface-cli download InternRobotics/EBench-Dataset --local-dir saved/dataset --repo-type dataset数据集采用 LeRobot 格式,可直接用于常见的 VLA 训练流水线。数据集内容详见上文的数据集总览。
下一步:运行第一次评测。