DecisionBench：面向长期代理工作流的多模型委托基准发布

作者：袖梨 2026-05-31

一种名为DecisionBench的跨模型委托基准于近期由研究团队正式发布，专门用于评估长期代理工作流中多个垂直智能体间的协同表现。该基准通过固定任务套件、同伴模型池、委托接口及多轴度量套件，为开发者提供了标准化的评测框架。

基准核心构架：任务与模型池

DecisionBench整合了GAIA、tau-bench与BFCL多轮在内的任务套件，覆盖复杂长期工作流的典型场景。同伴模型池包含来自7家供应商家族的11个模型，确保评测结果对不同架构有代表性。这套配置真的挺全面，也让不同模型在统一起跑线上接受考验。

委托机制与技能注释层

基准定义的委托接口采用call_model结合可选read_profile通道，让主模型能调用同伴模型并读取其配置档案。确定性技能注释层为每项任务标注所需专业能力，避免模型因技能缺失而误判。能做到这么精细，确实不容易！

多维度度量体系

度量套件涵盖质量、成本、延迟、委托率及路由保真度等七个维度，尤其关注供应商自偏好与反事实委托上限。这意味着系统不仅能评估最终答案好坏，还能分析模型何时该主动“求助”、以及是否存在不公平的自我选择。这可以说是目前最细致的评估指标之一了。

技术意义与潜在影响

DecisionBench并不限制具体委托策略，因而可兼容任意同伴模型组合。这种设计使团队能自由探索最合理的分工方式。对于开发复杂AI应用的人来说，这个工具能大幅降低试错成本，何乐而不为呢？

最后，该基准的发布标志着长期代理工作流评测迈入可量化阶段，未来或将成为多模型协作系统的标准测试平台。

相关文章