Zum Inhalt springen
Deutsch

EBench Docs

Benchmark-Uebersicht

Eine kurze Orientierung dazu, was EBench evaluiert und wie Scores berechnet werden. Nutzen Sie diese Seite als Karte — Setup- und Implementierungsdetails finden Sie ueber die Links auf den jeweiligen Seiten.

  • Simulator. Auf Basis von NVIDIA Isaac Sim. Das Framework GenManip liefert den Simulationsserver, Szenen und das Asset-Packaging.
  • Architektur. Client–Server: Der Server fuehrt die Simulation als Black Box aus, Ihr Modell kommuniziert ueber ein schlankes Client-Paket. Siehe Umgebung einrichten.
  • Roboter. Alle Aufgaben verwenden die lift2-Embodiment — Dual-Arm mit mobiler Basis und vier 480×640-Kameras. Die Frame-Modalitaeten finden Sie unter Assets und Datensatz → Modalitaeten pro Frame.
  • Aufgaben. 26 Evaluations-Aufgaben aus Long-Horizon-, dexterous- und mobiler Manipulation. Komplette Liste in der Aufgabenuebersicht.

EBench organisiert die Aufgaben in drei Submission-Tracks:

TrackSchwerpunktZugehoerige Trainings-Subsets
mobile_manipPick-and-Place mit mobiler Basislong_horizon, simple_pnp
table_top_manipDexterous Tabletop-Aufgabenteleop_tasks
generalistGemischt ueber Kategorien (Vereinigung der beiden)alle obigen

Jeder Track wird auf drei Splits evaluiert: val_train, val_unseen, test.

Split-Semantik — WIP. Eine genaue Aufteilung, welche Aufgaben/Seeds in welchen Split gehen, wird hier dokumentiert.

Wie Sie jeden Track einreichen, steht unter Evaluation starten und im Challenge-Guide.

  • Score pro Episode — ein Wert in [0,0; 1,0]. Eine Episode erhaelt den vollen Score, wenn die Zielbedingung der Aufgabe innerhalb der Episode erfuellt wird, sonst 0,0. Aufgaben-spezifische Erfolgssemantik finden Sie in der Aufgabenuebersicht unter dem Feld Score der jeweiligen Aufgabe.
  • Track-Score — Durchschnitt der Episodenscores ueber alle ausgewerteten Episoden im eingereichten Track/Split.
  • Leaderboard — Track-Scores werden im Challenge-Leaderboard aggregiert.

Episodenzahlen und Zeitbudgets — WIP. Anzahl der Episoden pro Track/Split und Schritt-Limits pro Episode werden hier dokumentiert.