콘텐츠로 이동
한국어

EBench Docs

에셋 및 데이터셋

두 가지 데이터 수집 방식 — 액션 특성이 다릅니다. 이번 릴리스의 에피소드는 두 개의 서로 다른 파이프라인에서 수집되었습니다. 학습에 사용하는 서브셋이 무엇인지 유의하세요.

  • 규칙 기반 생성 (GenManip). long_horizonsimple_pnpGenManip 프레임워크의 스크립트 정책으로 생성됩니다. 궤적은 부드럽고, 서브 스킬 사이에 명확한 행동 경계가 있습니다.
  • 원격 조작. teleop_tasks는 사람이 원격 조작으로 수행한 정교한 조작 데이터입니다. 궤적에는 사람의 스타일이 남아 있어, 동작 도중 진동·망설임·일시 정지가 발생할 수 있습니다.

두 종류를 합쳐 학습하면 정책이 가끔 원격 조작의 망설임을 그대로 학습할 수 있습니다. 동작의 부드러움이 평가에서 중요하다면 GenManip 서브셋의 비중을 높이거나 teleop 에피소드를 필터링하세요.

서브셋출처평가 트랙에피소드프레임(약)태스크
long_horizon규칙 기반 (GenManip)mobile_manip, generalist9 × 200 = 1,8003.6 M장기 태스크 9개 패밀리
simple_pnp규칙 기반 (GenManip)mobile_manip, generalist10 × 200 = 2,0000.96 M단일 스텝 pick-and-place 10개
teleop_tasks사람 원격 조작table_top_manip, generalist7 × 400 = 2,8005.3 M정교한 조작 태스크 7개

EBench에는 세 가지 평가 트랙이 있습니다. mobile_manip(이동 베이스 pick-and-place)과 table_top_manip(테이블탑 정교한 조작)이 두 가지 특화 영역을 다루고, generalist는 둘의 합집합입니다 — 제출 방법은 평가 실행을 참고하세요.

모든 서브셋은 동일한 녹화 설정을 공유합니다: 15 fps, 로봇 타입 lift2 (양팔 + 이동 베이스), 4개의 480×640 카메라 뷰 (top, left, right, overlook).

각 서브셋은 독립적인 LeRobot v2.1 데이터셋이며, 자체 태스크 패밀리, 메타, 청크 단위의 parquet/비디오 파일을 가집니다.

saved/dataset/
├── long_horizon/
│ ├── <task_family>/ # 예: bottle, dishwasher, make_sandwich, ...
│ │ ├── data/chunk-000/episode_*.parquet
│ │ ├── videos/chunk-000/<camera>/episode_*.mp4
│ │ └── meta/{info,episodes,episodes_stats,modality,stats,tasks}.json(l)
│ └── instruction_paraphrases_train_only.json
├── simple_pnp/
│ └── task1/ … task10/ # 동일한 레이아웃
└── teleop_tasks/
└── peg_in_hole/ install_gear/ … # 동일한 레이아웃
형상비고
state.joints, action.joints, action.joints_delta(12,)양팔 관절 위치 (6 + 6)
state.gripper, action.gripper(4,)좌우 그리퍼, 각각 손가락 두 개 상태
state.ee_pose, action.ee_pose, action.ee_pose_delta(14,)좌우 EE 위치 (xyz) + 쿼터니언 (wxyz)
state.base, action.base, action.base_delta(3,)베이스 x, y, theta
video.{top,left,right,overlook}_camera_view(3, 480, 640)AV1 인코딩 MP4, 15 fps

*_delta 채널은 같은 값을 변화량 형태로 표현한 것입니다 — 정책의 제어 방식에 맞춰 선택하세요. 각 태스크의 meta/modality.json에는 LeRobot 로더에 노출되는 표준 state/action/video 키가 정의되어 있습니다.

long_horizon — 9개의 장기 태스크 패밀리, 각 200 에피소드: bottle, detergent, dish, dishwasher, fruit, make_sandwich, microwave, pen, shop.

simple_pnp — 단일 스텝 pick-and-place 10개 태스크 (task1task10), 각 200 에피소드. 예시: 포크와 스푼 → 식기 홀더, 책갈피 → 책, 비누 → 비누 받침, 사과 → 과일 그릇, 리모컨 → 거치대, 향수 → 화장대 선반, 소금 → 양념 선반, 선반에서 사과 꺼내기, 찻잔과 찻주전자, 그릇을 접시에 쌓기.

teleop_tasks — 정교한 조작 태스크 7개, 각 400 에피소드: collect_coffee_beans, flip_cup_collect_cookies, frame_against_pen_holder, install_gear, peg_in_hole, put_glass_in_glassbox, tighten_nut.

모든 에피소드는 자연어 명령과 함께 제공되며, 데이터셋에는 태스크당 여러 개의 패러프레이즈가 포함되어 있습니다. 표준 명령은 각 서브셋의 meta/tasks.jsonl에 들어 있고, long_horizon에는 학습용 추가 표현이 담긴 instruction_paraphrases_train_only.json이 함께 제공됩니다. 학습 중 패러프레이즈를 샘플링하면 정책이 명령 표현 변화에 더 강건해집니다.

Hugging Face에서 평가 에셋을 saved/ 디렉터리로 다운로드합니다.

Terminal window
huggingface-cli download InternRobotics/EBench-Assets --local-dir saved --repo-type dataset

다운로드가 완료되면 다음과 같은 구조를 확인할 수 있습니다.

GenManip/
├── saved/
│ ├── assets/
│ ├── tasks/
│ └── eval_results/ ← 평가 시 자동 생성
└── ...
Terminal window
huggingface-cli download InternRobotics/EBench-Dataset --local-dir saved/dataset --repo-type dataset

데이터셋은 LeRobot 형식을 사용하며, 일반적인 VLA 학습 파이프라인과 바로 호환됩니다. 데이터셋 구성은 위의 데이터셋 개요를 참고하세요.

다음 단계: 첫 번째 평가 실행.