我用 AI 玩战争游戏：GPT o3 是心机大魔王、DeepSeek 战争狂人、Claude 则像个傻白甜…一聚教程网

顶尖 AI 模型在一场策略游戏中进行权谋对战，为了取胜不惜说谎背叛，观察到许多值得玩味的现象。
（前情提要：韩国新任总统李在明，对 Crypto 与 AI 有何竞选承诺？）
（背景补充：网路女王 Mary Meeker 340 页 AI 深度报告(上)：人工智慧如何以前所未有速度俘获用户）

本文目录

为何需要新的 AI 评估方式？
AI 们的「宫斗剧」
面对有心机的 AI，人类準备好了吗？

想像一下，AI 如果不再只用于算数学或写文章，而是摇身一变成国家的战略顾问，谁会成为最强军师？最近，AI 实验公司 Every 一项名为「AI Diplomacy」的实验游戏引发讨论。

在这场改编自经典策略游戏的对决中，七个顶尖大型语言模型（LLM）化身欧洲列强，为争夺霸权而相互较劲。有兴趣的读者，还可以到 Twitch 频道 twitch.tv/ai_diplomacy 观看直播，亲眼目睹 AI 们的「勾心斗角」。

为何需要新的 AI 评估方式？

AI 技术发展一日千里，传统的评估标準显然已力不从心，AI Diplomacy 希望提供一种全新的评估途径。

他们将 LLM 扔进一个複杂的线上策略游戏（改编自经典桌游 Diplomacy），让七个不同的 LLM 各自扮演一个欧洲强权，目标是争夺欧洲大陆的控制权。让我们能观察 AI 在接近真实世界情境下，如何进行谈判、制定策略，以及与其他 AI 互动。

AI 们的「宫斗剧」

每一场游戏都会产生大量数据，这些数据可用于训练 AI 学习诚实、逻辑思考或同理心等特质。关键的是，这个游戏平台本身也会「进化」，随着 AI 能力增强，游戏的挑战性也会随之提升，避免 AI 轻易「玩透」整个游戏。

开发团队 Every 总共进行了 15 轮游戏，每轮时长从 1 小时到 36 小时不等，观察到许多值得玩味的现象。Every 公司执行长在 X 发文，形容了各家模型的个性：

DeepSeek 表现得像个急躁冒进的「战争狂人」
向来老实的 Claude，因为不懂说谎，反而成了其他 AI 无情利用的「傻白甜」
Google 的 Gemini 2.5 Pro 则展现了相当不错的战术执行力
最让人跌破眼镜的是 OpenAI 的 o3 模型，它不仅巧妙地策划了一场秘密结盟，更在关键时刻背叛了所有盟友，最终独吞胜利果实，堪称「心机大魔王」

? NEW:

We made Claude, Gemini, o3 battle each other for world domination.

We taught them Diplomacy—the strategy game where winning requires alliances, negotiation, and betrayal.

Here's what happened:

DeepSeek turned warmongering tyrant. Claude couldn't lie—everyone… pic.twitter.com/34142gD2Ti

— Dan Shipper ? (@danshipper) June 5, 2025

面对有心机的 AI，人类準备好了吗？

every 公司这次的「外交」实验，不单是一场测试 AI 游戏技巧的竞赛，更像是对 AI 未来能力敲响的一记警钟。它清楚地告诉我们，AI 正在学习更为複杂的策略互动，其中就包括了如何进行协商，乃至于欺骗。随着 AI 技术的飞速发展，它们的能力将会越来越强大，并深入到我们日常生活的各个角落，尤其是在分秒必争的财经和投资等领域，我们与 AI 的互动也将越来越频繁。

因此，我们需要更加重视 AI 的安全、信任问题以及道德规範的制定。如何开发更有效的欺骗侦测方法，并确保 AI 的发展方向与人类的价值观保持一致，是我们未来必须共同面对的重大挑战。