EBench Docs
GMP CLI
在 client 环境中安装 genmanip-client:
pip install -e standalone_tools/packages/genmanip_client/gmp --help| 命令 | 作用 |
|---|---|
gmp submit | 向评测服务提交任务或重新连接已有任务。 |
gmp status | 查看当前 run 的进度和指标。 |
gmp eval | 运行 client worker,与 server episode 交互。 |
gmp plot | 对 episode 输出做后处理可视化。 |
gmp clean | 清理生成的缓存、日志、评测输出和临时残留文件。 |
gmp visualize | 浏览评测结果,并在 Rerun viewer 中回放 episode。 |
提交、查看与评测
Section titled “提交、查看与评测”gmp submit
Section titled “gmp submit”按 benchmark family + split 提交:
gmp submit ebench/mobile_manip/test --run_id mobile_testgmp submit ebench/table_top_manip/val_unseen --run_id tabletop_val_unseengmp submit ebench/generalist/val_train --run_id generalist_val_trainbenchmark 别名:
gmp submit ebench --run_id full_benchmark支持的 task-setting 路径:
Task setting:
mobile_maniptable_top_manipgeneralist
Split:
val_trainval_unseentest
gmp status
Section titled “gmp status”gmp status --host 127.0.0.1 --port 8087gmp submit ebench --run_id history_idgmp statusgmp eval
Section titled “gmp eval”gmp eval -a r5a -g lift2 --worker_ids 0 --frame_save_interval 10gmp eval --worker_ids 0,1 --chunk_size 8 --host 127.0.0.1 --port 8087接入自定义模型请见接入自定义模型。
清理、绘图与可视化
Section titled “清理、绘图与可视化”gmp plot
Section titled “gmp plot”gmp plot client_results/<benchmark>/<run_id>/<task>/<seed>gmp clean
Section titled “gmp clean”使用 gmp clean 清理本地运行产生的各类生成文件。
先预览将要删除的内容:
gmp clean --dry-run清理生成的 mesh cache、评测结果、日志,以及遗留的 lock/tmp 文件:
gmp clean如果还要删除下载下来的 benchmark package cache:
gmp clean --allgmp visualize
Section titled “gmp visualize”gmp visualize 会启动一个本地 HTTPS viewer,用来浏览 run、查看 task 成功率,并回放单个 episode。
安装 visualize 额外依赖:
pip install -e "standalone_tools/packages/genmanip_client/[visualize]"基本用法:
gmp visualizegmp visualize --port 55088缓存管理:
gmp visualize --flush-cache --dry-rungmp visualize --flush-cache说明:
gmp visualize默认读取saved/eval_results/下的结果。- 由于 viewer 使用 HTTPS,浏览器第一次打开时可能会出现一次证书提示。
- 当前 visualize 依赖的
rerun-sdk路径要求 Python 3.11+。
--run_id:run 的唯一标识,也用于断点恢复。--host、--port:评测服务地址(默认本地127.0.0.1:8087)。--worker_ids:gmp eval要接入的 worker。--frame_save_interval:client 侧存帧频率。--chunk_size:模型按 chunk 输出动作时的 chunk 长度。