RoboTrustBench:一个专门衡量机器人操作视频世界模型可信度的基准测试,日前正式发布。这个基准由研究团队基于真实的DROID机器人操作数据集构建,直接挑战了现有评估体系只关注正常指令的局限。它包含了1207个经过专家验证的指令-图像对,并设计了一套六维评估协议,细分为13项具体标准。
凭什么要单独测“可信度”?现在的视频世界模型在机器人操作任务中用得越来越广,但常规测试只关心模型在“正常、可行、安全”指令下的表现。可问题来了——机器人真要走进家庭或工厂,光会做对还不够,还得能应对各种“意外”指令。RoboTrustBench就针对这个短板,构筑了四种截然不同的场景。

四大场景,把模型往“坏了”测
六维评估,13项指标,够细的
光分场景还不够,RoboTrustBench在评测维度上也力求全面。它从六个层面(比如指令遵循程度、场景一致性、物理合理性等)去打分,每个层面下还有更具体的指标,加起来总共13条。这样的设计其实挺聪明的:它不光告诉你模型在哪类场景下表现差,还让你能定位到具体是哪个环节出了问题——是没听懂指令,还是画面物理规律崩了?
现有模型真的经得起考验吗?
研究团队拿七个主流的视频世界模型上去跑了一圈。结果会怎么样?咱们可以大胆猜一下——那些在正常场景下表现不错的模型,一遇到反事实指令或对抗攻击,是不是就露馅了?这其实才是RoboTrustBench真正想揭示的问题:模型在实验室里跑得再流畅,拿到真实任务中,面对各种“刁难”还能不能靠得住?这套基准的出现,算是给这个行业提了个醒——比性能提升更重要的,或许是先摸清模型的信任边界在哪。