Ir al contenido
Español

EBench Docs

Visión general del benchmark

Una orientación breve sobre qué evalúa EBench y cómo se calculan las puntuaciones. Usa esta página como mapa — sigue los enlaces para los detalles de configuración o de implementación.

  • Simulador. Construido sobre NVIDIA Isaac Sim. El framework GenManip proporciona el servidor de simulación, las escenas y el empaquetado de assets.
  • Arquitectura. Cliente–servidor: el servidor ejecuta la simulación como caja negra; tu modelo se comunica con él mediante un paquete cliente ligero. Ver Configuración del entorno.
  • Robot. Todas las tareas usan la encarnación lift2 — doble brazo con base móvil y cuatro cámaras 480×640. Las claves de state/action por frame están en Assets y dataset → Modalidades por frame.
  • Tareas. 26 tareas de evaluación que cubren tareas de horizonte largo, manipulación dextera y manipulación móvil. Lista completa en Tareas.

EBench organiza las tareas en tres pistas de envío:

PistaFocoSubset(s) de entrenamiento asociados
mobile_manipPick-and-place con base móvillong_horizon, simple_pnp
table_top_manipTareas dexteras de mesateleop_tasks
generalistMixto entre categorías (unión de las dos)todos los anteriores

Cada pista se evalúa en tres splits: val_train, val_unseen, test.

Semántica de los splits — WIP. Aquí se documentará la asignación precisa de tareas/seeds a cada split.

Para saber cómo enviar cada pista, consulta Ejecutar evaluación y la guía del Challenge.

  • Puntuación por episodio. Un valor en [0.0, 1.0]. Un episodio recibe la puntuación completa cuando se cumple la condición objetivo de la tarea dentro del episodio; de lo contrario 0.0. La semántica de éxito por tarea aparece en Tareas bajo el campo Score de cada tarea.
  • Puntuación de pista. Promedio de las puntuaciones por episodio sobre todos los episodios evaluados en la pista/split enviada.
  • Tabla de clasificación. Las puntuaciones por pista se agregan en la tabla del Challenge.

Conteo de episodios y presupuesto de tiempo — WIP. El número de episodios por pista/split y los límites de pasos por episodio se documentarán aquí.