OpenGVLab发布ScaleCUA-32B多模态Agent模型

作者：袖梨 2026-06-02

OpenGVLab发布ScaleCUA-32B多模态Agent模型。该模型基于Qwen2.5-VL-32B-Instruct进行微调训练，专门面向图像文本到文本的交互场景。模型在Hugging Face上线后，已获得131次下载和21个点赞，社区关注度正在逐步升温。

ScaleCUA-32B的核心定位是什么？从技术标签来看，它融合了transformers、safetensors和qwen2_5_vl等框架，同时标注了“agent”和“conversational”功能。这意味着模型不仅能理解图文混合输入，还能在对话中自主调用工具、执行任务，算是一个挺实用的多模态智能体方案。

模型使用的训练数据集是OpenGVLab/ScaleCUA-Data，这应该是个专门为多模态Agent场景打造的指令集。基础模型Qwen/Qwen2.5-VL-32B-Instruct本身就有不错的视觉理解能力，ScaleCUA-32B在它的基础上进一步强化了任务规划与执行能力。这样的迭代思路，确实挺符合当前AI行业对Agent模型的期待。

多模态Agent模型正在快速迭代，OpenGVLab此举算是填补了32B参数量级上的一块空白。以往这类模型要么偏重语言推理，要么专注视觉识别，能把二者打通并适配Agent场景的产品其实不多。ScaleCUA-32B的出现，或许能让开发者更方便地构建图像相关的交互应用。