Gemini Omni 到底怎么用?
其实很简单,入口就在 Gemini 移动端 App 主页,或者直接访问官网 gemini-omni.ai/studio。你写一句话,它就能同时生成画面、旁白、配乐,不用像以前那样五个工具来回倒。点开「新建对话」,输入提示词,等个十几秒就出结果,免费版每天能用三次。挺方便的对吧?

它和同类 AI 模型比,优势在哪?
市面上做视频的模型不少,比如 Sora、可灵,但 Geminini Omni 玩的是「全模态」——文本、图像、音频、视频都能接收和生成,视频只是其中一部分。官方数据显示,它能保持 60 秒连续镜头一致性,输出 4K 原生分辨率,还支持 40 多种语言旁白。说白了,别人做视频要管时间轴、配音、画面,它把一整套活儿全塞进同一个模型里。
实测体验真的那么神吗?
有媒体第一时间订阅了谷歌 Ultra 会员实测,结论是「有点拉,但综合给到 NPC」。什么意思呢?就是前后一致性基本保持到位,比如用自然语言微调视频、多轮编辑后画面不会乱跳。但和官方惊艳 demo 相比,实际生成效果没那么丝滑。教授在黑板上推公式那段确实让人破防,可日常使用未必每次都能那么完美。
那到底怎么上手操作?
为什么说它是「视频版香蕉」?
有网友惊叹「视频版 Nano Banana 来了」,指的是它像 Banana 那样直接内嵌到模型里,而不是单独的工具。这和谷歌 Veo 系列不同,Veo 是个独立的视频生成模型,而 Omni 更像 Gemini 的一个深度集成功能。你可以把它当「万能胶片」,喂什么类型的输入,它就吐出什么类型的输出,连黑板上的公式都能准确还原。