コンテンツにスキップ
日本語

EBench Docs

ベンチマーク概要

EBench が何を評価し、スコアをどのように算出するかを素早く把握するためのページです。地図として使ってください — 詳細はリンク先の各ページを参照します。

  • シミュレータ。 NVIDIA Isaac Sim をベースに構築。シミュレーションサーバー、シーン、アセットパッケージングは GenManip フレームワークが提供します。
  • アーキテクチャ。 クライアント–サーバー:サーバーがシミュレーションをブラックボックスとして実行し、モデルは軽量クライアントパッケージ経由で通信します。詳しくは環境構築
  • ロボット。 全タスクで lift2 エンボディメントを使用 — 双腕 + 移動ベース + 4 つの 480×640 カメラ。フレームごとの state/action キーはアセットとデータセット → フレームごとのモダリティに記載されています。
  • タスク。 評価タスクは合計 26 種類で、長期タスク、器用な操作、モバイル操作をカバーします。一覧はタスク一覧を参照。

EBench はタスクを 3 つの提出トラックに分けています:

トラックフォーカス対応する学習サブセット
mobile_manip移動ベースでの pick-and-placelong_horizonsimple_pnp
table_top_manip卓上の器用な操作タスクteleop_tasks
generalistカテゴリ横断の混合(上記二つの和集合)上記すべて

各トラックは 3 つの split で評価されます:val_trainval_unseentest

Split の詳細 — WIP。 各 split に含まれるタスク/シードの正確な内訳は今後ここに記載されます。

各トラックの提出方法は評価の実行Challenge ガイドを参照してください。

  • エピソード単位のタスクスコア — 範囲 [0.0, 1.0]。エピソード内でタスクのゴール条件が達成されれば満点、そうでなければ 0.0。タスクごとの成功判定はタスク一覧の各タスクの Score 欄を参照。
  • トラックスコア — 提出したトラック/split における全評価エピソードのスコア平均。
  • リーダーボード — トラックスコアは Challenge リーダーボードで集計されます。

エピソード数と時間予算 — WIP。 各トラック/split のエピソード数、エピソードあたりのステップ上限は今後ここに記載されます。