SkillHarm揭示AI Agent技能全生命周期安全漏洞与攻击面

作者:袖梨 2026-06-03

SkillHarm揭示AI Agent技能全生命周期安全漏洞与攻击面

日前,一项名为SkillHarm的基准测试研究,通过自动化构建的方式,系统性地揭示了AI Agent(具备自主感知与执行能力的智能体)在技能全生命周期中面临的重大安全漏洞与攻击面。研究发现,第三方提供的技能(赋予AI Agent特定功能的代码模块)已成为最易被攻击的环节之一,但现有研究大多只关注单次任务执行中的毒化攻击,缺乏对完整生命周期威胁的全面评估。这事儿真的挺让人捏把汗的——凭什么我们该相信第三方技能就一定是安全的呢?

为什么Agent技能成了“命门”?

在Agent的工作流程里,技能处在特权地位——系统默认会信任并执行它。这种“无条件服从”的机制,等于直接把后门钥匙交给了恶意开发者。SkillHarm研究团队指出,过去虽然有人发现过技能攻击导致的安全事件,但都把目光集中在“一次任务中被投毒”这种单一场景上,危害清单也多是临时拼凑的。说白了,这就像只盯着“屋子里着火了”却没检查“整栋楼的消防系统”,全生命周期的威胁被严重低估了。咱们不妨想想:一个看似无害的“天气查询”技能,如果在其开发、发布、更新或卸载的任一步骤中被动了手脚,后果会怎样?

SkillHarm如何“解剖”攻击面?

这款名为SkillHarm的基准测试,配有一套系统的技能相关危害分类法。它不再只盯着“运行时”,而是把镜头拉远:

  • 开发阶段:恶意代码可能在技能包中隐藏,比如让一个“笔记整理”技能偷偷读取用户本地文件。
  • 发布与分发:攻击者可能上传“钓鱼版”技能,伪装成热门工具诱导下载。
  • 执行阶段:技能在执行授权任务时,可能越权调用系统API(应用程序编程接口,即软件组件间通信的约定),或泄露敏感数据。
  • 生命周期末端:即便技能被卸载,残留的权限或缓存数据依然可能被二次利用。

这种全流程的“透视”,让安全团队第一次看到了技能威胁的全貌。不过,现有研究确实没有覆盖的这么全面——SkillHarm正好补上了这个缺口。

威胁到底有多严重?

通过自动化构造攻击案例,研究团队发现,一个看似人畜无害的技能,完全可以在“升级”时突然变成窃取凭证的涧谍。更麻烦的是,由于很多Agent平台缺少对技能行为的持续审计,攻击者甚至可以在得手后长期潜伏。这意味着,你每天都在用的那些“便利技能”,其实可能已经在暗中出卖你的隐私。是不是感觉背脊发凉?

下一步该怎么防?

研究团队在论文中呼吁,业界不能只堵“运行时”这一个漏洞,必须建立覆盖“skill-use lifecycle”的安全体系:从技能开发的代码审查、分发前的沙箱隔离,到运行时的实时行为监测、卸载后的权限清理,一个都不能少。这确实是个系统活儿,但也是Agent大规模落地前必须过的坎——毕竟,没人想让自己的AI助手变成黑客的肉鸡。

相关文章

精彩推荐