PortBench 推出相关性感知全管线基准，评估 LLM 投资组合管理

作者：袖梨 2026-06-21

PortBench 日前正式推出一个面向大型语言模型（LLM）驱动的投资组合管理的全新基准。该基准名为 PortBench，其核心特色在于引入了相关性感知机制，并覆盖完整的决策管线。它直指当前金融领域基准测试的两大短板：忽视了跨资产间的相关性结构，导致无法有效区分真正的多元化投资组合与集中持仓；以及未能模拟真实世界中投资组合管理的全流程决策链路。

现有基准的两大结构性缺陷

现有用于评估 LLM 金融能力的基准大多聚焦于个股预测或简单问答任务，对于投资组合管理这一关键决策场景的覆盖严重不足。PortBench 指出，传统基准的评估方式忽略了资产之间的价格联动关系。当一批资产高度同向波动时，看似分散的持仓实际风险高度集中，而这类风险在现有的测试框架中难以被识别和惩罚。

PortBench 的设计思路与评估范围

PortBench 设计了跨越十年、涵盖六类异质资产类别的测试数据，确保评估场景具备市场真实度。其采用的全管线评估机制并非仅看最终收益，而是逐环节衡量从资产筛选、权重分配到风险控制的每一步表现。这一设计使得 PortBench 能够同时检验 LLM 对资产相关性的理解深度，以及面对动态市场时的决策适应性。

相关性感知评估如何运作

PortBench 的核心创新在于“相关性感知”模块。这个模块在评估投资组合时，不仅计算整体收益率，还量化组合内各资产之间的协方差结构，从而识别出那些虽然持有不同资产、但因高度相关而实际风险集中的组合。只有通过这一检验的评估结果，才能真实反映模型在分散风险上的能力。

对金融 AI 评估的行业意义

PortBench 提供了一个比通用基准更贴近专业投资实践的评估框架。以往 LLM 在金融任务上的表现往往被简单归类为“好”或“差”，但缺少对其在真实管理流程中“如何做决策”以及“为何如此决策”的透视。该基准的推出让业界在评估 LLM 的金融能力时，有了更具体的依据和判断维度。