EBench Docs

ベンチマーク概要

EBench が何を評価し、スコアをどのように算出するかを素早く把握するためのページです。地図として使ってください — 詳細はリンク先の各ページを参照します。

評価設定

シミュレータ。 NVIDIA Isaac Sim をベースに構築。シミュレーションサーバー、シーン、アセットパッケージングは GenManip フレームワークが提供します。
アーキテクチャ。 クライアント–サーバー：サーバーがシミュレーションをブラックボックスとして実行し、モデルは軽量クライアントパッケージ経由で通信します。詳しくは環境構築。
ロボット。 全タスクで lift2 エンボディメントを使用 — 双腕 + 移動ベース + 4 つの 480×640 カメラ。フレームごとの state/action キーはアセットとデータセット → フレームごとのモダリティに記載されています。
タスク。 評価タスクは合計 26 種類で、長期タスク、器用な操作、モバイル操作をカバーします。一覧はタスク一覧を参照。

EBench はタスクを 3 つの提出トラックに分けています：

各トラックは 3 つの split で評価されます：val_train、val_unseen、test。

Split の詳細 — WIP。 各 split に含まれるタスク/シードの正確な内訳は今後ここに記載されます。

各トラックの提出方法は評価の実行と Challenge ガイドを参照してください。

エピソード単位のタスクスコア — 範囲 [0.0, 1.0]。エピソード内でタスクのゴール条件が達成されれば満点、そうでなければ 0.0。タスクごとの成功判定はタスク一覧の各タスクの Score 欄を参照。
トラックスコア — 提出したトラック/split における全評価エピソードのスコア平均。
リーダーボード — トラックスコアは Challenge リーダーボードで集計されます。

エピソード数と時間予算 — WIP。 各トラック/split のエピソード数、エピソードあたりのステップ上限は今後ここに記載されます。