CRePE提出弯曲射线期望位置编码实现统一相机控制视频生成

作者：袖梨 2026-05-30

arXiv 最新论文提出 CRePE（Curved Ray Expectation Positional Encoding）弯曲射线期望位置编码，该技术为统一相机控制下的视频生成提供了全新编码方案。研究团队针对现有相机条件视频生成中，位置编码无法适应多种相机运动、镜头配置和场景结构变化的核心痛点，给出了一个颇具实用价值的解法。

传统编码方式为何受限？

现有的大多数注意力级相机编码，要么只提供射线级别的相机信号，要么死死绑定在针孔相机几何模型上。这就导致了什么结果呢？一旦遇到广角镜头或者鱼眼镜头，这些老办法立马“水土不服”。说白了，在统一相机模型这种更普适的框架下，要想实现真正的统一控制，旧编码根本撑不住。

CRePE的核心创新在哪里？

其实思路挺直接的：CRePE将每个图像令牌用深度期望值来表示。这就好比咱们给每个像素点赋予了“空间位置追踪能力”，让模型在生成视频时能准确理解每一帧画面在三维空间中的对应关系。它不再局限于直线射线，而是能处理弯曲射线场景——这对于鱼眼相机或镜头畸变较大的设备来说，确实是个好消息。

技术价值：让视频生成更“听话”

凭什么说这是进步呢？因为这代表着AI视频生成从“固定视角控制”走向了“任意相机参数控制”。想想看，以前你想让AI生成一段从广角切换到长焦的连续视频，模型很容易出现画面扭曲或逻辑断层。现在CRePE在编码层面就把这个坑填上了，生成结果自然更稳定。

目前这个方案尚处arXiv预印本阶段，但方向已经引起业界关注。要知道，视频生成领域最头疼的其实就是多相机参数下的统一对齐，CRePE至少撕开了一道口子。实际落地效果如何，还得看后续在真人唤脸、虚拟拍摄等场景的测试数据——但至少，思路是对的！

相关文章

精彩推荐