一篇学术论文提出SePO(Self-Evolving Prompt Optimization,自我进化提示优化)方法,将提示代理本身的系统提示也纳入优化范围,实现系统提示的自动迭代。该方法来自arXiv预印本论文《SePO: Self-Evolving Prompt Agent for System Prompt Optimization》,编号2606.04465。
传统方法的局限在哪?

现有的系统提示优化方案,大多依赖一个“提示代理”来改进“任务代理”的系统提示。但这里有个很明显的bug:那个负责优化的提示代理,它自己的系统提示却还是手工写的,并且固定不变。这就好比让一个穿着过时战术背心的教官去教士兵换新装备——他能教得挺好,但自己那套行头从来没人帮忙升级。凭什么手动设定的提示就是最优解?这种做法显然留下了优化盲区。
SePO的创新设计:自我参照
SePO打破了这种不对称格局。它的核心思路真的挺有意思:采用一种自我参照的设计。没错,整个系统里只用一个提示代理,而这个代理同时肩负两个任务——它既要去优化任务代理的系统提示,也要优化自己的系统提示。通俗点说,这就像一个智能教练,在给学员制定训练计划的同时,还能不断反思和更新自己的教学方法。
这具体是怎么运作的呢?
整个过程完全自动化,不需要人为干预。提示代理在“教”别人的过程中,自己的提示也在不断变强。这种能力,确实让人眼前一亮。
这种设计带来了什么好处?
首先,提示代理不再是一个静态的黑盒,它具备了持续学习的能力。随着迭代次数增加,它的优化策略会越来越精准。其次,生成的所有系统提示都是人类可读的,并且与底层模型无关——这意味着即使换了不同的AI模型,优化后的提示依然能直接复用。对于开发者和研究者来说,这算是一个能实实在在降低调优成本的工具。
未来能用在哪些场景?
想想看:客服机器人需要频繁更新话术、代码助手要适配新的编程框架、内容生成工具要跟上热点——这些场景里,系统提示的更新是个很头疼的活。如果一个系统能自动完成提示的迭代优化,那开发人员就能从繁琐的调参和写提示词中解脱出来,把精力放在更核心的业务逻辑上。咱们可以期待,SePO这种自我进化的思路,或许会推动“提示工程”从一个依赖经验的手工活,变成一套自动化的智能系统。