Jina Embeddings v5 Omni：几何保持的多模态嵌入模型

作者：袖梨 2026-05-31

Jina AI 日前正式推出 Jina Embeddings v5 Omni 套件（即 jina-embeddings-v5-omni），这是一对基于 GELATO 方法的多模态嵌入模型，能够将文本、图像、音频和视频输入编码到同一个语义空间。该方法来自 arXiv 论文 2605.08384v2，核心思路是让不同模态的数据在嵌入时保持几何结构不变，从而提升跨模态任务的准确性。

GELATO 的全称是 Geometry-preserving Embeddings via Locked Aligned TOwers，翻译过来就是“通过锁定对齐塔实现的几何保持嵌入”。它构建在 VLM 风格的架构之上，非文本编码器经过适配后，为语言模型提供输入，语言模型再为所有输入类型生成嵌入向量。这个过程其实挺巧妙的——不同模态的数据最终能在同一个空间里做比较，而不需要为每种模态单独建一个空间。

Jina Embeddings v5 Omni 套件包含两个模型，它们都支持文本、图像、音频和视频四种输入。这意味着用户可以用同一套模型处理文章、图片、录音和视频片段，输出在同一个语义空间中的嵌入向量。这不就简化了多模态任务的流程吗？开发者不需要再为不同模态准备不同的模型，一套方案就能搞定。

这套模型是基于 Jina Embeddings v5 Text 模型扩展而来。GELATO 方法把原先只处理文本的能力，延伸到了图像、音频和视频领域。可以说，v5 Omni 是在 v5 Text 的基础上，加上了多模态的“翅膀”。原来的文本模型本来就很能打，现在扩展到多模态，算是补齐了能力版图。

从技术角度看，GELATO 的关键在于“锁定对齐塔”这个设计。它让不同模态的编码器在训练过程中保持对齐，同时锁住语言模型的部分参数，从而保证嵌入结果的几何结构不会扭曲。这种方法确实挺有想法的，解决了多模态嵌入中常见的结构失真问题——不同模态的数据在映射到同一空间时，原有的几何关系很容易被破坏，GELATO 正好堵住了这个漏洞。

多模态嵌入模型的应用前景挺广的，比如跨模态检索、多模态分类、内容理解等场景。Jina Embeddings v5 Omni 的出现，让开发者有了一个新的工具来处理多模态数据。它真的能把四种模态的数据映射到同一个空间里，这算是同类产品中一个不错的进展。对于需要处理多种数据类型的企业和研究者来说，这确实是一个值得关注的工具。

这次发布的两款模型延续了 Jina Embeddings 系列的一贯风格——注重实际应用效果。GELATO 方法在论文中展示了几何保持的优势，这意味着在检索、聚类等下游任务中，嵌入向量的质量会有保障。开发者可以期待在实际项目中看到更好的表现。