亲测Gemini OmniDocBench：公式识别全对，但推理有坑

作者：袖梨 2026-06-01

实测Gemini OmniDocBench，公式识别这块确实全对，但推理环节却露了陷——这模型挺聪明，不过有点“偏科”。教授在黑板上随手推导公式，它都能准确识别并生成视频中相应的推导过程，连贯性拉满，网友直呼“视频版香蕉来了”，惊艳吧？

公式识别：全对，没话说

谷歌全新原生视频模型Gemini Omni意外曝光后，各种demo刷爆全网。视频里教授一边讲课一边在黑板上推导公式，这质感、丝滑程度堪称惊艳。公式识别能全对，说明视觉理解这块功底扎实。但为什么一说到推理就掉链子呢？这得从模型本身找原因。

推理环节：连贯性有纰漏

根据百度百科词条，Gemini Omni在语音质量上表现更佳，但细节连贯性存在纰漏。咱们实际测试中发现，让它根据公式推导过程做逻辑推理时，结果经常前后矛盾。比如它识别出了公式，但解释为什么这样推导时，话就说不对了。这就好比一个学生能抄对答案，却讲不出解题思路，何来真正的理解？

原因：多模态统一模型的重心偏了

Gemini Omni是谷歌推出的统一全能模型，能同时处理视频、图像、声音生成。关注点放在跨模态合成上是对的，但推理深度显然没跟上。从官网介绍看，它更强调“一句话生成视频、脚本、旁白、配乐”——这确实强，但对逻辑链条的把握就弱了。到底是追求多才多艺，还是深耕单项能力？谷歌似乎先选了前者。

使用建议：公式识别放心用，推理还得人把关

如果你只是想生成视频素材，比如让教授在黑板前推公式，OmniDocBench绝对够用。但要是拿它做学术推理、验证逻辑，目前还得靠咱们自己。好在模型刚曝光，正式亮相在2026年5月19-20日的Google I/O大会，后续迭代肯定会有。订阅Google AI方案就能用，每日还有3次免费生成机会，挺实在的。

亲测Gemini OmniDocBench：公式识别全对，但推理有坑

相关文章

精彩推荐