Gemini Omni Reddit讨论：为何用户评价两极？

作者：袖梨 2026-06-04

Gemini Omni在Reddit上引发激烈讨论：为什么用户评价如此两极分化？

一边是官方demo里教授在黑板上推导数学公式的丝滑连续画面，让全网惊呼“视频版Nano Banana来了”；另一边是试用者吐槽“真的有点拉”。同样的模型，为什么口碑差距这么大？其实，这背后反映的是大家对“全能AI”的认知落差——期待和真实体验，真的不是一回事。

官方演示惊艳，但实测却暴露短板

谷歌在I/O 2026大会上正式发布的Gemini Omni，被定义为“一个可从任何输入创建内容的全新模型”。它不再是单纯的视频生成工具，而是能接收文本、图像、音频、视频任意输入，并生成对应内容的全模态大模型。官方放出的案例确实能打：一句话编辑视频、保持多轮编辑后的一致性、甚至为视频配上旁白和背景音乐，这种“把五个工具塞进一个主干”的思路，听起来确实很美好。

然而，“AI新榜”第一时间订阅了Ultra会员进行一手实测，结论却有些尴尬。在多轮编辑后，虽然视频的前后一致性基本能保持住，但整体效果离“惊艳”还有距离。有网友直接评价：“眼见为实已经不存在了。”——这句话的意思是，既然AI生成的视频能如此逼真，那我们还能相信自己看到的东西吗？这算是对技术的一种敬畏，还是对体验不够完美的一种讽刺呢？

核心矛盾集中体现在这几个方面：

全面 vs. 专精： Omni主打的是“全模态”，但视频生成质量目前比不上专攻视频的Veo模型，文本生成也不如专门的文本模型来得精准。这种“样样通、样样松”的状况，让追求极致效果的用户感到失望。
编辑能力确实强： 官方强调的“通过自然语言微调视频”是一大亮点。实测中，用户可以通过对话继续编辑已生成的视频，而不需要从零开始，这个功能在创意工作中确实挺方便。
实际效果不够稳定： 虽然能生成4K分辨率和60秒连续镜头，但细节处理、光影一致性等方面仍有明显瑕疵。有网友吐槽生成的视频“有NPC感”，意思是动作和表情不够自然，有点僵硬。

Reddit热帖到底在吵什么？

红迪网友的讨论其实很直接：有人觉得这是AI视频生成的里程碑，因为它把以前需要多个工具分步完成的事，现在一句话就能搞定，节省了大量时间。但反对者则认为，如果生成的内容质量不过关，那这“全能”的身份就没任何意义了——毕竟，谁愿意花高价订阅一个“什么都能做但什么都做不好”的模型呢？

另一个争议点在于门槛。目前Gemini Omni已上线所有谷歌产品，但只有AI Plus、Pro和Ultra订阅用户才能使用，免费用户只能每日试用三次。这种“高订阅价+有限免费体验”的模式，自然会引起部分用户的不满。人们难免会问：技术这么前瞻，体验却这么“拉”，凭什么让大家掏钱呢？

说到底，Gemini Omni引发的两极评价，其实是AI行业里一个经典问题：技术领先性 vs. 用户实际体验。谷歌在生态整合和多模态能力上确实迈出了一大步，但当用户真正上手后，如果期待中的“完美”变成了“还行”，这种落差自然会放大。你觉得，这种“全能型选手”的未来，真的能像官方demo一样丝滑吗？