谷歌版Sora来了:4K高清暴击OpenAI:视频生图新卷王:更理解物理世界

作者:袖梨 2026-07-01

现在,Veo 2可以像电影摄影师一样和我们交流。不必再费力和它讨论技术参数、猜测Gemini的标题,只要用习惯的术语说出想要的内容即可。

img_6a4474920345c30.webp

Veo 2生成的经典追车场景

另外,我们还可以进行更精确的相机控制,比如下图就是一个包含第一人称视角、转移焦点的提示。

可以看到,车内的皮革内饰、车速表等高频细节,给人留下极其深刻的印象。

img_6a4474920346231.webp

通过人类评估,Veo 2模型在与几大顶尖视频模型的对比中,脱颖而出。

它不仅仅是简单地生成视频,更是对现实世界物理规律、人类动作,表情方面得到了极致的理解。

img_6a4474920346432.webp

对此,谷歌总结了新模型的三大亮点:

首先是, 增强的真实感和保真度。

相较于其他的AI视频模型,Veo 2在细节、真实感、伪影减少方面得到了显著的改进。

其次是,领先的运动能力。

Veo 2能以精确的方式生成运动画面,这主要归功于它对物理学的理解、和遵循详细指令的能力。

第三个是,更强大的相机控制选项。

它能精确理解指令,创建各种拍摄风格、角度、运动效果,以及这些元素的组合。

对于创作者而言,Veo 2就像是一个无所不能的AI导演。你可以指定电影类型、镜头风格,甚至是特定的电影技巧,它皆可完美呈现。

比如这位在显微镜前科学家的面部特写。

img_6a4474920346733.webp

再比如,一个从场景中间滑过的低角度追踪镜头。

img_6a4474920346934.webp

更令人惊叹的是,Veo 2对专业术语的理解。

只需在提示中输入「18mm lens」,Veo 2就得知创建拍摄广角镜头,或在提示中加入「浅景深」(shallow depth of field)它便可模糊背景,突出主体。

img_6a4474920346b35.webp

不仅如此,Veo 2很少有「幻觉」,比如AI视频中多出的手指问题。

沃顿商学院教授Ethan Mollick实测Sora时,结果发现水獭在飞机上使用WiFi的画面中,长出了人类的手,非常诡异。

img_6a4474920346d36.webp

看看Veo 2在双手细节的生成,堪称极致。

img_6a4474920346f37.webp

当然,Veo 2生成的视频,并非没有破绽。

它在创建逼真、充满活力或复杂的视频,以及在复杂的运动场景中,难以保持一致性。

下面这位冰上舞者的双腿,在复杂的前进运动中,出现了变形。

img_6a4474920347238.webp

滑滑板的男孩,在空中翻越时,双腿双手出现了幻觉。

img_6a4474920347439.webp

在安全性方面,谷歌为Veo 2加入了隐形的SynthID水印,有助于一眼识别是AI生成的内容。

目前,Veo 2已经登录VideoFX,预计明年它将进军YouTube Shorts等平台,为内容创作者开启全新的可能性。

下面分享了Veo 2更多优秀的demo:

img_6a44749203476310.webp

img_6a44749203478311.webp

img_6a4474920347a312.webp

img_6a4474920347c313.webp

img_6a4474920347e314.webp

img_6a44749203480315.webp

img_6a44749203483316.webp

img_6a44749203485317.webp

Imagen 3:颜色明亮,构图更精准

今天,备受期待的Imagen 3同时迎来了重大升级。

这次升级的提升,堪称革命性。首先是图像的整体质感,更加明亮,构图更为精准。

img_6a44749203487318.webp

img_6a4474920348a319.webp

img_6a4474920348c320.webp

宛如知名漫画师创作的橙发少女,像游戏设定一般宏大的幻想世界,难以分辨是AI还是照片的黑白人像(左右滑动查看)

在艺术风格的表现上,从照片级写实到印象派绘画,从抽象艺术到动漫风格,Imagen 3都能实现更为准确的还原。

其次,它能精准执行用户的提示词指令,呈现出更为细腻的细节和更丰富的纹理效果。

在与其他顶级AI生图模型对决中,Imagen 3取得了最优的人工评估结果。

img_6a4474920348e321.webp

Imagen 3生成的图像,在所有风格上都得到了提示,包括照片写实主义、印象主义、动画和抽象主义。

img_6a44749203490322.webp

下面这种冬日雪地中红松鼠的特写,仿佛高清大片,无论是松鼠的皮毛、空中的雪花,还是背景中松针的虚化,都体现出了细节的考究。

img_6a44749203492323.webp

在1940年代风格的欧洲火车站,一对恋人深夜在火车前相拥,整个场景让人想起众多电影中的离别场景。

img_6a44749203494324.webp

浅景深拍摄的亚洲女子肖像,光影效果一绝。

img_6a44749203496325.webp

超现实的场景,Imagen 3也能精准把握,比如下面这只草莓蜂鸟。整个图像呈现出高分辨率的专业摄影手法,景深控制让蜂鸟和花在虚化的背景中更显生动。

img_6a44749203498326.webp

一张精妙的微距素材照片,展现了一颗精心雕刻成蜂鸟形状的草莓,栩栩如生地呈现出蜂鸟正在啜饮鲜艳管状花朵花蜜的瞬间,翅膀因快速振动而形成朦胧的动感。背景是一片生机盎然的彩色花园,经过柔化处理呈现出梦幻般的虚化效果。图像细节丰富,采用浅景深拍摄,使草莓蜂鸟保持锐利清晰的焦点,同时让背景自然柔和。高分辨率的专业摄影手法和柔和的打光让整个场景层次分明,专业的色彩分级更突显了画面的鲜艳色彩,创造出清晰度极高的视觉效果。精确的景深控制让蜂鸟和花朵在虚化的背景中更显生动突出

一拖一创,风格任意定

不仅如此,谷歌还推出了一个全新的尝试——生成式AI实验性项目Whisk。

img_6a4474920349a327.webp

以往,我们都需要输入冗长、详细的文字提示来生成图像,Whisk彻底改变了这一形式,现在只用图像就可了。

把图片简单一拖,Whisk就能帮我们创作。

img_6a4474920349d328.webp

在Whisk中,我们可以通过上传图片,来定义主体、场景和风格,然后将它们重新混合,创造出自己独特的作品,比如数字玩偶、珐琅徽章、精美贴纸。

下面,你会看到想象大开的梦幻鱼、粉色花环海象、糖粉甜甜圈和长角的奇幻生物猫。

img_6a4474920349f329.webp

img_6a447492034a1330.webp

img_6a447492034a3331.webp

img_6a447492034a5332.webp

为什么用图像的prompt就能生图?

这是因为在系统底层,Gemini模型会自动为我们上传的图片生成详细的文本,随后文本会被输入到Imagen 3中处理。

而这一过程,绝非简单地复制原图,而是重点提取主题的核心特征,由此才能让我们自由组合不同主题、场景和风格元素。

当然,由于Whisk只会提取图像中的几个关键特征,因此生成图像也可能会和我们的预期不同。

你可能也看出来了,Whisk并不像传统的图像编辑器,进行像素级的完美编辑,而是一种崭新的创意工具,让人创造性地探索天马行空的想法。

就如谷歌所说,它的核心价值,是自由尝试各种可能性,在各种创意方式中进行极致的探索,保留下自己最满意的作品。

相关文章

精彩推荐