BAAI发布URSA-1.7B文本到图像模型

作者：袖梨 2026-06-01

BAAI发布URSA-1.7B文本到图像模型

北京智源人工智能研究院（BAAI）于近日发布了全新文本到图像模型——URSA-1.7B-IBQ512。该模型已上传至Hugging Face平台，截至当前已获得58次下载与4个点赞。模型基于阿里通义千问的Qwen3-1.7B作为基座，采用URSAPipeline推理架构，并采用Apache-2.0开源协议向社区开放。

URSA-1.7B的命名透露出它的技术内核：1.7B的参数规模在如今动辄数十亿参数的图像生成大模型中，算是相当轻量。它结合了diffusers与safetensors两种主流格式，确保兼容性与加载效率。模型标签包含arxiv:2510.24717，意味着对应的学术论文已经公开，研发团队把理论与实践一起端了出来——这确实挺难得。

技术路线与性能表现

URSA-1.7B-IBQ512最大的看点在于它采用了“IBQ”（Iterative Bootstrapped Quantization，迭代自举量化）技术路径。简单来说，它通过量化压缩方法，在用更少计算资源的情况下保持生成质量。这其实是一个很现实的方向：不是所有团队都养得起千亿参数的大模型，但中小团队照样需要高质量的文生图能力。

从已有信息来看，该模型的主标签为“text-to-image”，支持将任意自然语言描述直接转化为图像。用户可以通过Hugging Face上的URSAPipeline快速调用，无需从头搭建复杂的训练流程。模型基座选择了Qwen3-1.7B，而非自研的文本模型，这一“拿来主义”策略也挺务实——把精力聚焦在图像生成环节，何必重复造轮子呢？

开放生态与社区反馈

模型的Apache-2.0许可证意味着商业应用和二次开发几乎没有门槛。有人可能会问：一个只有58次下载、4个点赞的新模型，凭什么让人关注？理由之一是它来自BAAI——这个在国内AI开源生态中举足轻重的机构，URSA系列本身也是有一定技术积累的。下载量虽小，但作为刚上线不久的开源项目，后续发展值得关注。

另外，模型直接关联arXiv论文，为学术界和工业界提供了可复现的基准。如果你想快速体验文生图的轻量化方案，或者正在寻找一个比Stable Diffusion更小巧的替代品，不妨去Hugging Face搜一下“BAAI/URSA-1.7B-IBQ512”。反正开源协议写在明面上，试试看也没什么损失吧！

从技术细节来看，URSA-1.7B定位于资源受限场景下的文本到图像生成。相比于那些需要A100显卡才能跑动的“巨无霸”模型，它更适合在消费级GPU甚至CPU推理环境中部署。这就意味着，更多的开发者和爱好者能够真正上手玩一玩，而不是只停留在看论文的层面。

当然，1.7B参数规模也决定了它的生成精度和复杂场景理解能力存在天花板。能否在小参数上兑现“高保真”承诺，还得看实际跑出来的效果。BAAI这次把模型、代码、论文全部开放，敢把底牌亮出来，本身就说明他们对这套方案是有信心的。