Aller au contenu
Français

EBench Docs

Aperçu du benchmark

Une orientation rapide sur ce qu’EBench évalue et comment les scores sont calculés. Utilisez cette page comme une carte — suivez les liens pour les détails de configuration ou d’implémentation.

  • Simulateur. Construit sur NVIDIA Isaac Sim. Le framework GenManip fournit le serveur de simulation, les scènes et l’empaquetage des assets.
  • Architecture. Client–serveur : le serveur exécute la simulation en boîte noire ; votre modèle communique avec lui via un paquet client léger. Voir Installation de l’environnement.
  • Robot. Toutes les tâches utilisent l’incarnation lift2 — bi-bras avec base mobile et quatre caméras 480×640. Les clés state/action par frame sont listées dans Assets et données → Modalités par frame.
  • Tâches. 26 tâches d’évaluation couvrant le long-horizon, la manipulation dextre et la manipulation mobile. Liste complète dans Démonstrations.

EBench organise les tâches en trois pistes de soumission :

PisteFocusSous-ensemble(s) d’entraînement associés
mobile_manipPick-and-place avec base mobilelong_horizon, simple_pnp
table_top_manipTâches dextres sur tableteleop_tasks
generalistMixte multi-catégories (union des deux)tous les précédents

Chaque piste est évaluée sur trois splits : val_train, val_unseen, test.

Sémantique des splits — WIP. La répartition précise des tâches/seeds entre les splits sera documentée ici.

Pour soumettre chaque piste, voir Lancer l’évaluation et le guide du Challenge.

  • Score par épisode — une valeur dans [0.0, 1.0]. Un épisode obtient le score plein lorsque la condition objectif de la tâche est satisfaite pendant l’épisode, sinon 0.0. La sémantique de réussite par tâche est dans Démonstrations sous le champ Score de chaque tâche.
  • Score de piste — moyenne des scores par épisode sur tous les épisodes évalués dans la piste/split soumise.
  • Classement — les scores de piste sont agrégés sur le classement du Challenge.

Nombre d’épisodes et budgets temps — WIP. Le nombre d’épisodes par piste/split et les limites de pas par épisode seront documentés ici.