CHI-Bench基准测试日前正式亮相,它专门用于评估AI代理能否自动化完成端到端、长期、政策密集型的医疗工作流。这项测试由arXiv上的研究团队提出,直指当前AI系统在日常医疗运营中“看得懂病历却搞不定报销”的尴尬现状。
核心挑战:政策密度才是真正的门槛

医疗工作流自动化为什么一直难啃?其实关键在于规则太复杂。一个简单的保险理赔流程,背后可能涉及数百条医学指南、保险条款和操作规范,AI若不能精准理解并且履行这些政策,自动化终究是一句空话。CHI-Bench把这组能力称之为“政策密度”,它要求AI代理必须依据一个庞大的规则库来做决策——这可不是查个资料那么简单吧?
不止一个角色:多角色协作才是常态

在真实的医院场景里,一个人工智能代理可能需要同时扮演护士、医生、保险协调员等角色,并且要完成顺畅的交接。CHI-Bench测试引入了“多角色组合”机制,一个任务流程本身就包含了角色切换——没错,这比单纯让AI当个问诊助手要复杂得多。凭什么认为单一功能的AI就能搞定医疗全流程?这项基准测试给出了否定答案。
多边交互:对话才是工作流的本质
很多工作流步骤实际上是由多轮对话构成的,比如同行评审或者给患者打电话确认信息。CHI-Bench设定的“多边交互”任务,正是要看看AI代理能否在来回沟通中把事情推进下去。光会写报告或者回答静态问题,可应付不了这种真实的沟通场景。
总的来说,CHI-Bench对着眼于长期、政策丰富的医疗工作流进行考验,它确实点出了当前基准测试中被忽视的短板。医疗自动化这条路,真的还有挺多硬仗要打。