CHI-Bench 基准测试：政策密集型医疗工作流自动化评估

作者：袖梨 2026-05-31

CHI-Bench基准测试日前正式亮相，它专门用于评估AI代理能否自动化完成端到端、长期、政策密集型的医疗工作流。这项测试由arXiv上的研究团队提出，直指当前AI系统在日常医疗运营中“看得懂病历却搞不定报销”的尴尬现状。

核心挑战：政策密度才是真正的门槛

医疗工作流自动化为什么一直难啃？其实关键在于规则太复杂。一个简单的保险理赔流程，背后可能涉及数百条医学指南、保险条款和操作规范，AI若不能精准理解并且履行这些政策，自动化终究是一句空话。CHI-Bench把这组能力称之为“政策密度”，它要求AI代理必须依据一个庞大的规则库来做决策——这可不是查个资料那么简单吧？

不止一个角色：多角色协作才是常态

在真实的医院场景里，一个人工智能代理可能需要同时扮演护士、医生、保险协调员等角色，并且要完成顺畅的交接。CHI-Bench测试引入了“多角色组合”机制，一个任务流程本身就包含了角色切换——没错，这比单纯让AI当个问诊助手要复杂得多。凭什么认为单一功能的AI就能搞定医疗全流程？这项基准测试给出了否定答案。

多边交互：对话才是工作流的本质

很多工作流步骤实际上是由多轮对话构成的，比如同行评审或者给患者打电话确认信息。CHI-Bench设定的“多边交互”任务，正是要看看AI代理能否在来回沟通中把事情推进下去。光会写报告或者回答静态问题，可应付不了这种真实的沟通场景。

总的来说，CHI-Bench对着眼于长期、政策丰富的医疗工作流进行考验，它确实点出了当前基准测试中被忽视的短板。医疗自动化这条路，真的还有挺多硬仗要打。