实测Gemini OmniDocBench,公式识别这块确实全对,但推理环节却露了陷——这模型挺聪明,不过有点“偏科”。教授在黑板上随手推导公式,它都能准确识别并生成视频中相应的推导过程,连贯性拉满,网友直呼“视频版香蕉来了”,惊艳吧?
公式识别:全对,没话说

谷歌全新原生视频模型Gemini Omni意外曝光后,各种demo刷爆全网。视频里教授一边讲课一边在黑板上推导公式,这质感、丝滑程度堪称惊艳。公式识别能全对,说明视觉理解这块功底扎实。但为什么一说到推理就掉链子呢?这得从模型本身找原因。
推理环节:连贯性有纰漏

根据百度百科词条,Gemini Omni在语音质量上表现更佳,但细节连贯性存在纰漏。咱们实际测试中发现,让它根据公式推导过程做逻辑推理时,结果经常前后矛盾。比如它识别出了公式,但解释为什么这样推导时,话就说不对了。这就好比一个学生能抄对答案,却讲不出解题思路,何来真正的理解?
原因:多模态统一模型的重心偏了
Gemini Omni是谷歌推出的统一全能模型,能同时处理视频、图像、声音生成。关注点放在跨模态合成上是对的,但推理深度显然没跟上。从官网介绍看,它更强调“一句话生成视频、脚本、旁白、配乐”——这确实强,但对逻辑链条的把握就弱了。到底是追求多才多艺,还是深耕单项能力?谷歌似乎先选了前者。
使用建议:公式识别放心用,推理还得人把关
如果你只是想生成视频素材,比如让教授在黑板前推公式,OmniDocBench绝对够用。但要是拿它做学术推理、验证逻辑,目前还得靠咱们自己。好在模型刚曝光,正式亮相在2026年5月19-20日的Google I/O大会,后续迭代肯定会有。订阅Google AI方案就能用,每日还有3次免费生成机会,挺实在的。