2026年4月24日,DeepSeek正式发布V4系列预览版,一口气推出两款MoE混合专家模型——V4-Pro与V4-Flash,全部原生支持100万Token超长上下文。V4-Pro总参数量达到1.6万亿,激活参数490亿,预训练数据33T Token;V4-Flash总参数2840亿,激活参数130亿,预训练数据32T Token。开源协议采用MIT,代码与权重完全开放。
双版本齐发,百万上下文成标配
这次发布可不是简单的参数堆叠。DeepSeek在效率、规模和长文本之间重新找到了平衡点。V4-Pro的1.6万亿参数规模确实惊人,但更关键的是它只激活490亿参数,通过MoE架构大幅降低计算成本。V4-Flash则面向轻量部署,2840亿总参数、130亿激活参数,同样支持百万上下文。两款模型都原生支持100万Token,这意味着什么?意味着模型能一口气处理整本《三体》三部曲的内容,而不需要分段切割。
三大核心突破,工程革命实至名归
咱们来看看技术架构的亮点。第一是效率突破:通过稀疏激活和动态路由,模型在保持1.6万亿参数规模的同时,推理速度比同等稠密模型快了好几倍。第二是规模突破:33T Token的预训练数据量,覆盖多语言、多领域知识,模型对长文本的理解能力确实提升明显。第三是上下文突破:百万Token的原生支持,让模型在处理长文档、代码库、对话历史时不再“健忘”。这真的解决了AI行业长期以来的痛点——长文本处理能力不足。
开源策略,推动社区生态发展
MIT协议意味着开发者可以自由使用、修改甚至商用这些模型。代码与权重完全开放,这算是给AI社区的一份厚礼。相比那些闭源模型,DeepSeek-V4的开源策略能吸引更多开发者参与优化和二次开发。可以说,这次发布不仅展示了技术实力,也体现了对开源生态的承诺。
行业影响,长文本应用迎来新可能
百万上下文支持让很多应用场景变得可行。比如法律文档审查,模型可以一次性分析整份合同;比如科研论文阅读,模型能同时理解多篇论文的上下文;再比如代码库维护,模型可以基于整个项目代码给出建议。这些场景以前受限于上下文长度,现在终于有了解决方案。凭什么说这是工程革命?因为它在保持1.6万亿参数规模的同时,激活参数只有490亿,效率提升明显。这难道不是技术突破吗?
DeepSeek-V4的发布为AI行业带来了新的可能性。开源策略也有助于推动社区发展。可以说,这次发布算是近期AI领域的重要事件。