RoboTrustBench：四类场景评估机器人操作视频世界模型可信度

作者：袖梨 2026-06-03

RoboTrustBench：一个专门衡量机器人操作视频世界模型可信度的基准测试，日前正式发布。这个基准由研究团队基于真实的DROID机器人操作数据集构建，直接挑战了现有评估体系只关注正常指令的局限。它包含了1207个经过专家验证的指令-图像对，并设计了一套六维评估协议，细分为13项具体标准。

凭什么要单独测“可信度”？现在的视频世界模型在机器人操作任务中用得越来越广，但常规测试只关心模型在“正常、可行、安全”指令下的表现。可问题来了——机器人真要走进家庭或工厂，光会做对还不够，还得能应对各种“意外”指令。RoboTrustBench就针对这个短板，构筑了四种截然不同的场景。

四大场景，把模型往“坏了”测

Normal（正常场景）——这是基础，看看模型在标准指令下能不能正确生成操作视频。
Constraint-Sensitive（约束敏感场景）——给指令加上限制条件，比如“避开左边杯子再抓取”，看模型懂不懂规矩。
Counterfactual（反事实场景）——指令本身可能违背物理常识，比如要求“让盘子悬浮起来”，测的是模型会不会“上当”。
Adversarial（对抗场景）——故意输入带有误导性的指令，考验模型的“免疫力”。

六维评估，13项指标，够细的

光分场景还不够，RoboTrustBench在评测维度上也力求全面。它从六个层面（比如指令遵循程度、场景一致性、物理合理性等）去打分，每个层面下还有更具体的指标，加起来总共13条。这样的设计其实挺聪明的：它不光告诉你模型在哪类场景下表现差，还让你能定位到具体是哪个环节出了问题——是没听懂指令，还是画面物理规律崩了？

现有模型真的经得起考验吗？

研究团队拿七个主流的视频世界模型上去跑了一圈。结果会怎么样？咱们可以大胆猜一下——那些在正常场景下表现不错的模型，一遇到反事实指令或对抗攻击，是不是就露馅了？这其实才是RoboTrustBench真正想揭示的问题：模型在实验室里跑得再流畅，拿到真实任务中，面对各种“刁难”还能不能靠得住？这套基准的出现，算是给这个行业提了个醒——比性能提升更重要的，或许是先摸清模型的信任边界在哪。

RoboTrustBench：四类场景评估机器人操作视频世界模型可信度

相关文章

精彩推荐