jina-embeddings-v5-omni 发布:GELATO 锁对齐塔实现多模态几何保持嵌入
近日,Jina AI 在 arXiv 上公开了 jina-embeddings-v5-omni 套件,核心方法名为 GELATO(Geometry-preserving Embeddings via Locked Aligned TOwers)。这套模型直接将文本、图像、音频和视频四种模态的输入编码到同一个语义嵌入空间,算是目前多模态嵌入领域的一次挺实在的落地。

GELATO 的架构建立在 VLM 风格(视觉语言模型)之上,非文本编码器被调整用于为语言模型提供输入,然后语言模型统一生成所有模态的嵌入。这种“锁对齐塔”的设计,说白了就是让不同模态的特征在进入大语言模型前先“对齐”,最终输出保持几何结构的向量——凭什么能保证嵌入空间里的距离关系不混乱?GELATO 正是为此而来。
具体来说,jina-embeddings-v5-omni 套件包含一对模型,它们扩展了已有的两个 Jina Embeddings v5 Text 模型。这意味着文本能力的基座被保留,同时新增了对图像、音频、视频的原生支持。没错,一个嵌入模型能同时处理四种数据类型,不再需要为每种模态单独训练一个模型,这在检索、聚类、多模态问答等场景里真的能省不少力气。

咱们来看技术细节:GELATO 通过“锁定对齐塔”的方式,使非文本编码器的输出与文本编码器的语义空间对齐,然后由语言模型生成统一的嵌入。这种设计避免了传统多模态模型需要大量配对数据微调的问题,同时保持了嵌入的几何性质——即相似内容在空间里距离更近,不同内容则更远。为什么几何保持那么重要?因为如果嵌入空间的拓扑结构被破坏,检索精度就会直线下降。
这次发布的 jina-embeddings-v5-omni 其实挺有针对性:当前多模态模型要么只能处理文本和图像,要么需要复杂的后期融合。GELATO 一步到位,把音频和视频也纳入了原始设计。对于企业用户来说,这意味着可以用一个模型处理客服对话(语音转文字)、产品图片、用户上传的视频等多种数据,然后在同一个向量数据库里做相似度搜索。不得不说,思路很直接,效果也值得关注。
目前该工作以 arXiv 预印本形式公开(编号 2605.08384v2),Jina AI 大概率会后续开放模型权重或 API。对于开发者而言,这算是一个明确信号:多模态嵌入正从实验室走向工程化。GELATO 锁对齐塔框架如果能保持跨模态的几何一致性,那么它在推荐系统、内容审核、知识图谱构建等场景中都可以成为基础设施。