EBench Docs
Aperçu du benchmark
Une orientation rapide sur ce qu’EBench évalue et comment les scores sont calculés. Utilisez cette page comme une carte — suivez les liens pour les détails de configuration ou d’implémentation.
Configuration d’évaluation
Section intitulée « Configuration d’évaluation »- Simulateur. Construit sur NVIDIA Isaac Sim. Le framework GenManip fournit le serveur de simulation, les scènes et l’empaquetage des assets.
- Architecture. Client–serveur : le serveur exécute la simulation en boîte noire ; votre modèle communique avec lui via un paquet client léger. Voir Installation de l’environnement.
- Robot. Toutes les tâches utilisent l’incarnation
lift2— bi-bras avec base mobile et quatre caméras 480×640. Les clés state/action par frame sont listées dans Assets et données → Modalités par frame. - Tâches. 26 tâches d’évaluation couvrant le long-horizon, la manipulation dextre et la manipulation mobile. Liste complète dans Démonstrations.
Pistes d’évaluation
Section intitulée « Pistes d’évaluation »EBench organise les tâches en trois pistes de soumission :
| Piste | Focus | Sous-ensemble(s) d’entraînement associés |
|---|---|---|
mobile_manip | Pick-and-place avec base mobile | long_horizon, simple_pnp |
table_top_manip | Tâches dextres sur table | teleop_tasks |
generalist | Mixte multi-catégories (union des deux) | tous les précédents |
Chaque piste est évaluée sur trois splits : val_train, val_unseen, test.
Sémantique des splits — WIP. La répartition précise des tâches/seeds entre les splits sera documentée ici.
Pour soumettre chaque piste, voir Lancer l’évaluation et le guide du Challenge.
Métriques
Section intitulée « Métriques »- Score par épisode — une valeur dans
[0.0, 1.0]. Un épisode obtient le score plein lorsque la condition objectif de la tâche est satisfaite pendant l’épisode, sinon0.0. La sémantique de réussite par tâche est dans Démonstrations sous le champScorede chaque tâche. - Score de piste — moyenne des scores par épisode sur tous les épisodes évalués dans la piste/split soumise.
- Classement — les scores de piste sont agrégés sur le classement du Challenge.
Nombre d’épisodes et budgets temps — WIP. Le nombre d’épisodes par piste/split et les limites de pas par épisode seront documentés ici.
Pour aller plus loin
Section intitulée « Pour aller plus loin »- Installation de l’environnement — installer le serveur et le client.
- Assets et données — télécharger les assets du benchmark et le jeu d’entraînement LeRobot.
- Lancer l’évaluation — soumettre votre premier run de bout en bout.