jina-embeddings-v5-omni 发布：锁对齐塔实现多模态几何保持嵌入

作者：袖梨 2026-05-31

jina-embeddings-v5-omni 发布：GELATO 锁对齐塔实现多模态几何保持嵌入

近日，Jina AI 在 arXiv 上公开了 jina-embeddings-v5-omni 套件，核心方法名为 GELATO（Geometry-preserving Embeddings via Locked Aligned TOwers）。这套模型直接将文本、图像、音频和视频四种模态的输入编码到同一个语义嵌入空间，算是目前多模态嵌入领域的一次挺实在的落地。

GELATO 的架构建立在 VLM 风格（视觉语言模型）之上，非文本编码器被调整用于为语言模型提供输入，然后语言模型统一生成所有模态的嵌入。这种“锁对齐塔”的设计，说白了就是让不同模态的特征在进入大语言模型前先“对齐”，最终输出保持几何结构的向量——凭什么能保证嵌入空间里的距离关系不混乱？GELATO 正是为此而来。

具体来说，jina-embeddings-v5-omni 套件包含一对模型，它们扩展了已有的两个 Jina Embeddings v5 Text 模型。这意味着文本能力的基座被保留，同时新增了对图像、音频、视频的原生支持。没错，一个嵌入模型能同时处理四种数据类型，不再需要为每种模态单独训练一个模型，这在检索、聚类、多模态问答等场景里真的能省不少力气。

咱们来看技术细节：GELATO 通过“锁定对齐塔”的方式，使非文本编码器的输出与文本编码器的语义空间对齐，然后由语言模型生成统一的嵌入。这种设计避免了传统多模态模型需要大量配对数据微调的问题，同时保持了嵌入的几何性质——即相似内容在空间里距离更近，不同内容则更远。为什么几何保持那么重要？因为如果嵌入空间的拓扑结构被破坏，检索精度就会直线下降。

这次发布的 jina-embeddings-v5-omni 其实挺有针对性：当前多模态模型要么只能处理文本和图像，要么需要复杂的后期融合。GELATO 一步到位，把音频和视频也纳入了原始设计。对于企业用户来说，这意味着可以用一个模型处理客服对话（语音转文字）、产品图片、用户上传的视频等多种数据，然后在同一个向量数据库里做相似度搜索。不得不说，思路很直接，效果也值得关注。

目前该工作以 arXiv 预印本形式公开（编号 2605.08384v2），Jina AI 大概率会后续开放模型权重或 API。对于开发者而言，这算是一个明确信号：多模态嵌入正从实验室走向工程化。GELATO 锁对齐塔框架如果能保持跨模态的几何一致性，那么它在推荐系统、内容审核、知识图谱构建等场景中都可以成为基础设施。

jina-embeddings-v5-omni 发布：锁对齐塔实现多模态几何保持嵌入

相关文章

精彩推荐