DeepSeek-V4发布1.6万亿参数模型支持百万上下文

作者：袖梨 2026-05-09

2026年4月24日，DeepSeek正式发布V4系列预览版，一口气推出两款MoE混合专家模型——V4-Pro与V4-Flash，全部原生支持100万Token超长上下文。V4-Pro总参数量达到1.6万亿，激活参数490亿，预训练数据33T Token；V4-Flash总参数2840亿，激活参数130亿，预训练数据32T Token。开源协议采用MIT，代码与权重完全开放。

双版本齐发，百万上下文成标配

这次发布可不是简单的参数堆叠。DeepSeek在效率、规模和长文本之间重新找到了平衡点。V4-Pro的1.6万亿参数规模确实惊人，但更关键的是它只激活490亿参数，通过MoE架构大幅降低计算成本。V4-Flash则面向轻量部署，2840亿总参数、130亿激活参数，同样支持百万上下文。两款模型都原生支持100万Token，这意味着什么？意味着模型能一口气处理整本《三体》三部曲的内容，而不需要分段切割。

三大核心突破，工程革命实至名归

咱们来看看技术架构的亮点。第一是效率突破：通过稀疏激活和动态路由，模型在保持1.6万亿参数规模的同时，推理速度比同等稠密模型快了好几倍。第二是规模突破：33T Token的预训练数据量，覆盖多语言、多领域知识，模型对长文本的理解能力确实提升明显。第三是上下文突破：百万Token的原生支持，让模型在处理长文档、代码库、对话历史时不再“健忘”。这真的解决了AI行业长期以来的痛点——长文本处理能力不足。

开源策略，推动社区生态发展

MIT协议意味着开发者可以自由使用、修改甚至商用这些模型。代码与权重完全开放，这算是给AI社区的一份厚礼。相比那些闭源模型，DeepSeek-V4的开源策略能吸引更多开发者参与优化和二次开发。可以说，这次发布不仅展示了技术实力，也体现了对开源生态的承诺。

行业影响，长文本应用迎来新可能

百万上下文支持让很多应用场景变得可行。比如法律文档审查，模型可以一次性分析整份合同；比如科研论文阅读，模型能同时理解多篇论文的上下文；再比如代码库维护，模型可以基于整个项目代码给出建议。这些场景以前受限于上下文长度，现在终于有了解决方案。凭什么说这是工程革命？因为它在保持1.6万亿参数规模的同时，激活参数只有490亿，效率提升明显。这难道不是技术突破吗？

DeepSeek-V4的发布为AI行业带来了新的可能性。开源策略也有助于推动社区发展。可以说，这次发布算是近期AI领域的重要事件。