RescueBench：评估具身代理在野外搜救中的多阶段交互与空间记忆能力

作者：袖梨 2026-06-02

AI 行业迎来硬核新基准：RescueBench 专测具身代理在野外搜救中的真实能力

日前，一项名为 RescueBench 的评估基准正式发布，旨在衡量具身代理（能在物理世界或模拟环境中感知、决策和行动的 AI 系统）在野外搜救任务中的表现。该研究以预印本形式发表于 arXiv，编号 2606.01848v1，其核心目标是将搜救任务拆解为一条四阶段流水线：多模态探索、目标救援、记忆引导返回与最终交接。这可不是玩具实验——在真实的灾害场景里，AI 代理需要边摸索陌生的环境，边处理来自视觉、声音甚至触觉的混乱信息，稍有不慎，就可能让救援行动功亏一篑。

搜救任务为何特别难？多阶段交互与空间记忆是命门

搜救要求代理在多重不确定性下探索陌生区域，进行多阶段交互，并长期保持空间记忆。现有基准通常只单独测其中一项能力，比如记忆力或导航能力，但问题来了：当这些能力必须在同一个流程里组合使用时，错误会被一步步放大，最后叠成灾难。举个例子，某个代理在探索阶段漏掉了一位受困者，那么后续的“救援”和“返回”都无从谈起——这何来效率与协作可言？RescueBench 正好戳中了这个痛点，它把整个流程串起来测，让每一环节的短板都藏不住。

RescueBench 怎么测的？四阶段流程一目了然

多模态探索— 代理需在未知环境中搜集线索（声音、图像等），锁定目标位置。
目标救援— 成功靠近受困者后，执行复杂的物理交互动作，比如清理障碍或提供援助。
记忆引导返回— 代理必须记住起点或安全区的位置，规划最短路径返回，不能迷路。
最终交接— 将受困者信息或状态报告给人类指挥中心，完成闭环。

每个阶段环环相扣，任何一步出岔子，整体评分都会直接掉档。这种设计确实挺狠，但也正是好基准该有的样子。

为什么说这比以往的评测更接近实战？

以前的评测往往只让代理在封闭场地里走迷宫，或者单纯测图像分类，但搜救不是。在废墟、山林或水下环境下，代理要同时应对视觉遮挡、噪声干扰和不断变化的地形，而且任务时间跨度很长，记忆必须持久准确。拿“记忆引导返回”来说，代理可能要在几十分钟甚至几小时前记住一个临时路标，中间还被救援任务打断——这对空间记忆能力的考验，真的不再是简单拼图了。

一句话总结 RescueBench 的价值

这项工作把具身代理的评测往前推了一大步，不再孤立看单项指标，而是逼着它们去处理真实搜救的复合难题。对于做机器人、强化学习或自主导航的人来说，这算是多了一个靠谱的考场。至于代理们能不能在 RescueBench 里交出一份漂亮的答卷，咱们等着后续的研究结果就是了。