EBench Docs
에셋 및 데이터셋
데이터셋 개요
섹션 제목: “데이터셋 개요”두 가지 데이터 수집 방식 — 액션 특성이 다릅니다. 이번 릴리스의 에피소드는 두 개의 서로 다른 파이프라인에서 수집되었습니다. 학습에 사용하는 서브셋이 무엇인지 유의하세요.
- 규칙 기반 생성 (GenManip).
long_horizon과simple_pnp는 GenManip 프레임워크의 스크립트 정책으로 생성됩니다. 궤적은 부드럽고, 서브 스킬 사이에 명확한 행동 경계가 있습니다.- 원격 조작.
teleop_tasks는 사람이 원격 조작으로 수행한 정교한 조작 데이터입니다. 궤적에는 사람의 스타일이 남아 있어, 동작 도중 진동·망설임·일시 정지가 발생할 수 있습니다.두 종류를 합쳐 학습하면 정책이 가끔 원격 조작의 망설임을 그대로 학습할 수 있습니다. 동작의 부드러움이 평가에서 중요하다면 GenManip 서브셋의 비중을 높이거나 teleop 에피소드를 필터링하세요.
한눈에 보기
섹션 제목: “한눈에 보기”| 서브셋 | 출처 | 평가 트랙 | 에피소드 | 프레임(약) | 태스크 |
|---|---|---|---|---|---|
long_horizon | 규칙 기반 (GenManip) | mobile_manip, generalist | 9 × 200 = 1,800 | 3.6 M | 장기 태스크 9개 패밀리 |
simple_pnp | 규칙 기반 (GenManip) | mobile_manip, generalist | 10 × 200 = 2,000 | 0.96 M | 단일 스텝 pick-and-place 10개 |
teleop_tasks | 사람 원격 조작 | table_top_manip, generalist | 7 × 400 = 2,800 | 5.3 M | 정교한 조작 태스크 7개 |
EBench에는 세 가지 평가 트랙이 있습니다. mobile_manip(이동 베이스 pick-and-place)과 table_top_manip(테이블탑 정교한 조작)이 두 가지 특화 영역을 다루고, generalist는 둘의 합집합입니다 — 제출 방법은 평가 실행을 참고하세요.
모든 서브셋은 동일한 녹화 설정을 공유합니다: 15 fps, 로봇 타입 lift2 (양팔 + 이동 베이스), 4개의 480×640 카메라 뷰 (top, left, right, overlook).
디렉터리 구조
섹션 제목: “디렉터리 구조”각 서브셋은 독립적인 LeRobot v2.1 데이터셋이며, 자체 태스크 패밀리, 메타, 청크 단위의 parquet/비디오 파일을 가집니다.
saved/dataset/├── long_horizon/│ ├── <task_family>/ # 예: bottle, dishwasher, make_sandwich, ...│ │ ├── data/chunk-000/episode_*.parquet│ │ ├── videos/chunk-000/<camera>/episode_*.mp4│ │ └── meta/{info,episodes,episodes_stats,modality,stats,tasks}.json(l)│ └── instruction_paraphrases_train_only.json├── simple_pnp/│ └── task1/ … task10/ # 동일한 레이아웃└── teleop_tasks/ └── peg_in_hole/ install_gear/ … # 동일한 레이아웃프레임별 모달리티
섹션 제목: “프레임별 모달리티”| 키 | 형상 | 비고 |
|---|---|---|
state.joints, action.joints, action.joints_delta | (12,) | 양팔 관절 위치 (6 + 6) |
state.gripper, action.gripper | (4,) | 좌우 그리퍼, 각각 손가락 두 개 상태 |
state.ee_pose, action.ee_pose, action.ee_pose_delta | (14,) | 좌우 EE 위치 (xyz) + 쿼터니언 (wxyz) |
state.base, action.base, action.base_delta | (3,) | 베이스 x, y, theta |
video.{top,left,right,overlook}_camera_view | (3, 480, 640) | AV1 인코딩 MP4, 15 fps |
*_delta 채널은 같은 값을 변화량 형태로 표현한 것입니다 — 정책의 제어 방식에 맞춰 선택하세요. 각 태스크의 meta/modality.json에는 LeRobot 로더에 노출되는 표준 state/action/video 키가 정의되어 있습니다.
서브셋별 태스크
섹션 제목: “서브셋별 태스크”long_horizon — 9개의 장기 태스크 패밀리, 각 200 에피소드:
bottle, detergent, dish, dishwasher, fruit, make_sandwich, microwave, pen, shop.
simple_pnp — 단일 스텝 pick-and-place 10개 태스크 (task1–task10), 각 200 에피소드. 예시: 포크와 스푼 → 식기 홀더, 책갈피 → 책, 비누 → 비누 받침, 사과 → 과일 그릇, 리모컨 → 거치대, 향수 → 화장대 선반, 소금 → 양념 선반, 선반에서 사과 꺼내기, 찻잔과 찻주전자, 그릇을 접시에 쌓기.
teleop_tasks — 정교한 조작 태스크 7개, 각 400 에피소드:
collect_coffee_beans, flip_cup_collect_cookies, frame_against_pen_holder, install_gear, peg_in_hole, put_glass_in_glassbox, tighten_nut.
자연어 명령
섹션 제목: “자연어 명령”모든 에피소드는 자연어 명령과 함께 제공되며, 데이터셋에는 태스크당 여러 개의 패러프레이즈가 포함되어 있습니다. 표준 명령은 각 서브셋의 meta/tasks.jsonl에 들어 있고, long_horizon에는 학습용 추가 표현이 담긴 instruction_paraphrases_train_only.json이 함께 제공됩니다. 학습 중 패러프레이즈를 샘플링하면 정책이 명령 표현 변화에 더 강건해집니다.
벤치마크 에셋
섹션 제목: “벤치마크 에셋”Hugging Face에서 평가 에셋을 saved/ 디렉터리로 다운로드합니다.
huggingface-cli download InternRobotics/EBench-Assets --local-dir saved --repo-type dataset다운로드가 완료되면 다음과 같은 구조를 확인할 수 있습니다.
GenManip/├── saved/│ ├── assets/│ ├── tasks/│ └── eval_results/ ← 평가 시 자동 생성└── ...학습 데이터셋 (LeRobot 형식)
섹션 제목: “학습 데이터셋 (LeRobot 형식)”huggingface-cli download InternRobotics/EBench-Dataset --local-dir saved/dataset --repo-type dataset데이터셋은 LeRobot 형식을 사용하며, 일반적인 VLA 학습 파이프라인과 바로 호환됩니다. 데이터셋 구성은 위의 데이터셋 개요를 참고하세요.
다음 단계: 첫 번째 평가 실행.