顶尖 AI 模型在一场策略游戏中进行权谋对战,为了取胜不惜说谎背叛,观察到许多值得玩味的现象。
(前情提要:韩国新任总统李在明,对 Crypto 与 AI 有何竞选承诺? )
(背景补充:网路女王 Mary Meeker 340 页 AI 深度报告(上):人工智慧如何以前所未有速度俘获用户 )
本文目录
想像一下,AI 如果不再只用于算数学或写文章,而是摇身一变成国家的战略顾问,谁会成为最强军师?最近,AI 实验公司 Every 一项名为「AI Diplomacy」的实验游戏引发讨论。
在这场改编自经典策略游戏的对决中,七个顶尖大型语言模型(LLM)化身欧洲列强,为争夺霸权而相互较劲。有兴趣的读者,还可以到 Twitch 频道 twitch.tv/ai_diplomacy 观看直播,亲眼目睹 AI 们的「勾心斗角」。
AI 技术发展一日千里,传统的评估标準显然已力不从心,AI Diplomacy 希望提供一种全新的评估途径。
他们将 LLM 扔进一个複杂的线上策略游戏(改编自经典桌游 Diplomacy),让七个不同的 LLM 各自扮演一个欧洲强权,目标是争夺欧洲大陆的控制权。让我们能观察 AI 在接近真实世界情境下,如何进行谈判、制定策略,以及与其他 AI 互动。
每一场游戏都会产生大量数据,这些数据可用于训练 AI 学习诚实、逻辑思考或同理心等特质。关键的是,这个游戏平台本身也会「进化」,随着 AI 能力增强,游戏的挑战性也会随之提升,避免 AI 轻易「玩透」整个游戏。
开发团队 Every 总共进行了 15 轮游戏,每轮时长从 1 小时到 36 小时不等,观察到许多值得玩味的现象。Every 公司执行长在 X 发文,形容了各家模型的个性:
? NEW:
We made Claude, Gemini, o3 battle each other for world domination.
We taught them Diplomacy—the strategy game where winning requires alliances, negotiation, and betrayal.
Here's what happened:
DeepSeek turned warmongering tyrant. Claude couldn't lie—everyone… pic.twitter.com/34142gD2Ti
— Dan Shipper ? (@danshipper) June 5, 2025
every 公司这次的「外交」实验,不单是一场测试 AI 游戏技巧的竞赛,更像是对 AI 未来能力敲响的一记警钟。它清楚地告诉我们,AI 正在学习更为複杂的策略互动,其中就包括了如何进行协商,乃至于欺骗。随着 AI 技术的飞速发展,它们的能力将会越来越强大,并深入到我们日常生活的各个角落,尤其是在分秒必争的财经和投资等领域,我们与 AI 的互动也将越来越频繁。
因此,我们需要更加重视 AI 的安全、信任问题以及道德规範的制定。如何开发更有效的欺骗侦测方法,并确保 AI 的发展方向与人类的价值观保持一致,是我们未来必须共同面对的重大挑战。
茶杯头甜蜜终章dlc 官方手机版v1.0.0.3
下载火柴人传说暗影格斗内置菜单 最新版v3.0.1
下载荒野乱斗测试服 安卓版v61.10.3
下载荒野乱斗彩虹服 安卓版v61.10.3
下载寒霜启示录 安卓版v1.25.10
寒霜启示录是一款生存模拟游戏,不少玩家可能对于末日都有着自己
末日城堡免广告版 安卓最新版v0.7.1
末日城堡免广告版是一款非常好玩的模拟经营类游戏,内部可以不看
甜蜜人生模拟器 最新版v1.4.5
甜蜜人生模拟器是一款非常好玩的模拟恋爱手游,玩家在这里能够对
武器锻造师内置功能菜单 v10.4
武器锻造师内置菜单版是游戏的破解版本,在该版本中为玩家提供了
开放空间overfield 安卓版v1.0.5
开放空间Overfield是一款箱庭养成经营手游,让你在广阔