DeepSeek V4预览版上线首日,社区评价两极分化。第三方测评平台Arena.ai在X上将V4 Pro(思考模式)定性为“相较DeepSeek V3.2的重大飞跃”,在其代码竞技场中列开源模型第3位、综合第14位。另一家测评方Vals AI则称,V4在其Vibe Code Benchmark中以“压倒性优势”拿下开源权重模型榜首,击败Gemini 3.1 Pro等闭源模型,较上代V3.2实现约10倍性能跃升。
定价层面,V4-Flash输出价格为每百万token 0.28美元,较Claude Opus 4.7低逾99%;V4-Pro输出价格为3.48美元,是同级别前沿模型中定价最低的选项之一。对比表格显示,Flash处于小模型区间最低档,Pro也处于“大模型前沿”区间低位。可以说,DeepSeek V4预览版在性能和价格上确实拿出了硬货。
围绕实际体验的讨论开始分化。多位网友在社交平台反馈,V4在代码任务上表现亮眼,百万级上下文和低价确实降低了开发者门槛。但为什么社区评价会两极分化?其实挺有意思——有用户指出,V4在某些非代码场景下的表现并不稳定,甚至出现“拉完了”的吐槽。这真的算是“重大飞跃”吗?还是说,评价分化源于不同使用场景的体验差异?
从第三方榜单来看,DeepSeek V4预览版在代码竞技场中冲进开源第一梯队,这确实是个硬指标。但社区评价的分化,或许也反映出用户对“百万级上下文+低价”组合的期待与实际体验之间的落差。毕竟,性能提升是一回事,日常使用中的稳定性和泛化能力又是另一回事。
咱们再看看定价策略。V4-Flash输出价格0.28美元/百万token,比Claude Opus 4.7低99%以上,这算是把开发者侧的使用门槛压到了地板价。V4-Pro输出价格3.48美元,也是同级最低之一。可以说,DeepSeek V4预览版在价格上确实够狠,但社区评价的两极分化,似乎说明光靠低价和单项性能还不够。
社区评价两极分化,其实也正常。一款新模型上线首日,有人捧有人踩,这本身就是技术迭代的常态。DeepSeek V4预览版在代码任务上冲进开源第一梯队,同时以低价和百万级上下文吸引开发者,但实际体验的争议,或许会在后续版本中得到解决。何来“两极分化”?不过是用户用脚投票的结果罢了。