论文提出双粒度偏好学习实现Agent技能选择性调用

作者：袖梨 2026-06-03

由arXiv发布的最新论文（编号2606.00510）提出了一个名为SelSkill的双粒度偏好学习框架，专门解决智能体在任务执行中如何按需选择性调用技能的问题。这项研究由学术界完成，核心洞察在于：现有方法大多只关注“哪个技能相关”，却忽略了“这个技能现在该不该用”。一个看似相关但不合时宜的技能调用，反而可能引入无关信息，打乱原本正确的执行流程。

SelSkill的独特之处在于它从“技能整体偏好”和“决策点即时偏好”两个粒度来学习调用策略。打个比方，一个智能助理知道用户喜欢用日历应用安排日程（整体偏好），但在用户说“帮我看下今晚有没有空”时，它得判断此刻到底该不该调用日历的“新建事件”功能（决策点偏好）——如果直接调出事件编辑界面，反而打断了用户先查看的意图。SelSkill正是通过这种双粒度学习，让智能体学会在恰当时机“跳过”不必要的技能。

为什么说这项研究挺关键？因为目前的智能体在实际任务中，尤其是处理多步骤、多技能的复杂场景时，经常出现“技能乱入”的问题。比如一个预定餐厅的任务，智能体正确执行到填写联系信息环节，结果突然调用了一个“天气查询”技能——虽然天气跟外出吃饭有关，但在填信息这个阶段调用它，就是纯粹的干扰。

SelSkill训练框架的具体做法是：

细粒度学习：在每次决策时，评估当前步骤是否真的需要调用技能。如果不需要，就输出“跳过”动作，保持原有执行路径继续推进。
粗粒度学习：从整个任务目标出发，学习哪些技能在长期规划中有价值，哪些可能是“看起来有用但实际帮倒忙”的陷阱。
联合优化：两个粒度互相约束，避免智能体只关注局部最优而忽略全局目标，也防止整体偏好压制了灵活决策的必要性。

这其实是给智能体装了一个“选择性调用”的开关。过去，学者们忙着给智能体建设技能库，或者教它怎么把技能执行得更好，却没有认真想过：再好的技能，在不合适的时间点上也是负担。SelSkill相当于教会智能体“先判断，后行动”——这个判断不仅包括“哪个技能对”，还包括“当前需不需要对”。

说白了，SelSkill让智能体明白：选择“不调用”有时比“调用正确技能”更重要。论文通过实验验证，这种双粒度偏好学习能显著提升任务成功率，尤其是在那些容易因无关技能调用而崩溃的复杂场景里。对于正在研发Agent产品的团队来说，这个框架能帮它们减少大量莫名其妙的执行错误——毕竟，用户可不想看到自己的智能助理在关键时刻“跑偏”。

论文提出双粒度偏好学习实现Agent技能选择性调用

相关文章

精彩推荐