EBench Docs
Visión general del benchmark
Una orientación breve sobre qué evalúa EBench y cómo se calculan las puntuaciones. Usa esta página como mapa — sigue los enlaces para los detalles de configuración o de implementación.
Configuración de evaluación
Sección titulada «Configuración de evaluación»- Simulador. Construido sobre NVIDIA Isaac Sim. El framework GenManip proporciona el servidor de simulación, las escenas y el empaquetado de assets.
- Arquitectura. Cliente–servidor: el servidor ejecuta la simulación como caja negra; tu modelo se comunica con él mediante un paquete cliente ligero. Ver Configuración del entorno.
- Robot. Todas las tareas usan la encarnación
lift2— doble brazo con base móvil y cuatro cámaras 480×640. Las claves de state/action por frame están en Assets y dataset → Modalidades por frame. - Tareas. 26 tareas de evaluación que cubren tareas de horizonte largo, manipulación dextera y manipulación móvil. Lista completa en Tareas.
Pistas de evaluación
Sección titulada «Pistas de evaluación»EBench organiza las tareas en tres pistas de envío:
| Pista | Foco | Subset(s) de entrenamiento asociados |
|---|---|---|
mobile_manip | Pick-and-place con base móvil | long_horizon, simple_pnp |
table_top_manip | Tareas dexteras de mesa | teleop_tasks |
generalist | Mixto entre categorías (unión de las dos) | todos los anteriores |
Cada pista se evalúa en tres splits: val_train, val_unseen, test.
Semántica de los splits — WIP. Aquí se documentará la asignación precisa de tareas/seeds a cada split.
Para saber cómo enviar cada pista, consulta Ejecutar evaluación y la guía del Challenge.
Métricas
Sección titulada «Métricas»- Puntuación por episodio. Un valor en
[0.0, 1.0]. Un episodio recibe la puntuación completa cuando se cumple la condición objetivo de la tarea dentro del episodio; de lo contrario0.0. La semántica de éxito por tarea aparece en Tareas bajo el campoScorede cada tarea. - Puntuación de pista. Promedio de las puntuaciones por episodio sobre todos los episodios evaluados en la pista/split enviada.
- Tabla de clasificación. Las puntuaciones por pista se agregan en la tabla del Challenge.
Conteo de episodios y presupuesto de tiempo — WIP. El número de episodios por pista/split y los límites de pasos por episodio se documentarán aquí.
Lectura recomendada
Sección titulada «Lectura recomendada»- Configuración del entorno — instala el servidor y el cliente.
- Assets y dataset — descarga los assets del benchmark y el dataset de entrenamiento.
- Ejecutar evaluación — envía tu primera evaluación de extremo a extremo.