BAAI发布Emu3.5-Image，实现图文到图像生成

作者：袖梨 2026-05-30

BAAI 发布 Emu3.5-Image，实现图文到图像生成。这一模型由北京智源人工智能研究院（BAAI）推出，专门用于将文本与图像组合的输入转化为新的图像。它在 Hugging Face 平台上线后，迅速获得 407 次下载和 76 个点赞，社区反馈相当积极。

模型定位与核心技术Emu3.5-Image 的 pipeline 标签是 image-text-to-image，这意味着它既能理解文字描述，也能参考已有的图片内容，最终生成符合要求的图像。你可以给它一张草图加上“变成彩色油画”的提示，它就能输出对应的结果。这种能力在创意设计、内容辅助等领域挺实用的。

开源生态与兼容性项目采用 Apache-2.0 开源许可，开发者可以自由使用、修改甚至商业部署。模型兼容 Hugging Face 的 endpoints，部署门槛不算高。此外，它基于 transformers 和 safetensors 框架构建，并提供了对应的论文编号 arxiv:2510.26583，方便学术同行深入查阅。这不正是开源社区最希望看到的透明度吗？

技术标签透露的信息从标签列表看，Emu3.5-Image 还支持 text-generation 任务，说明它在生成图像的同时也能处理纯文本场景，或许是一次多模态能力的整合尝试。当然，主要场景仍是图文到图——把一句话和一张参考图融合起来，生成风格、构图更匹配的新画面。