Jina AI 日前正式推出 Jina Embeddings v5 Omni 套件(即 jina-embeddings-v5-omni),这是一对基于 GELATO 方法的多模态嵌入模型,能够将文本、图像、音频和视频输入编码到同一个语义空间。该方法来自 arXiv 论文 2605.08384v2,核心思路是让不同模态的数据在嵌入时保持几何结构不变,从而提升跨模态任务的准确性。
GELATO 的全称是 Geometry-preserving Embeddings via Locked Aligned TOwers,翻译过来就是“通过锁定对齐塔实现的几何保持嵌入”。它构建在 VLM 风格的架构之上,非文本编码器经过适配后,为语言模型提供输入,语言模型再为所有输入类型生成嵌入向量。这个过程其实挺巧妙的——不同模态的数据最终能在同一个空间里做比较,而不需要为每种模态单独建一个空间。

Jina Embeddings v5 Omni 套件包含两个模型,它们都支持文本、图像、音频和视频四种输入。这意味着用户可以用同一套模型处理文章、图片、录音和视频片段,输出在同一个语义空间中的嵌入向量。这不就简化了多模态任务的流程吗?开发者不需要再为不同模态准备不同的模型,一套方案就能搞定。
这套模型是基于 Jina Embeddings v5 Text 模型扩展而来。GELATO 方法把原先只处理文本的能力,延伸到了图像、音频和视频领域。可以说,v5 Omni 是在 v5 Text 的基础上,加上了多模态的“翅膀”。原来的文本模型本来就很能打,现在扩展到多模态,算是补齐了能力版图。

从技术角度看,GELATO 的关键在于“锁定对齐塔”这个设计。它让不同模态的编码器在训练过程中保持对齐,同时锁住语言模型的部分参数,从而保证嵌入结果的几何结构不会扭曲。这种方法确实挺有想法的,解决了多模态嵌入中常见的结构失真问题——不同模态的数据在映射到同一空间时,原有的几何关系很容易被破坏,GELATO 正好堵住了这个漏洞。
多模态嵌入模型的应用前景挺广的,比如跨模态检索、多模态分类、内容理解等场景。Jina Embeddings v5 Omni 的出现,让开发者有了一个新的工具来处理多模态数据。它真的能把四种模态的数据映射到同一个空间里,这算是同类产品中一个不错的进展。对于需要处理多种数据类型的企业和研究者来说,这确实是一个值得关注的工具。
这次发布的两款模型延续了 Jina Embeddings 系列的一贯风格——注重实际应用效果。GELATO 方法在论文中展示了几何保持的优势,这意味着在检索、聚类等下游任务中,嵌入向量的质量会有保障。开发者可以期待在实际项目中看到更好的表现。