AI社区呼吁构建模型科学:验证、探索、引导、优化
近日,一篇来自 arXiv 的论文《The Case for Model Science: Verify, Explore, Steer, Refine》引发热议。AI 社区多位学者联合提出,业界应该从单纯的基准测试竞赛中走出来,转而建立一门系统性的学科——模型科学。说白了,就是不能再光比谁跑分高,得搞懂模型到底是怎么回事。

基准测试的“天花板”已经出现
论文指出,复杂 AI 模型如今服务着数十亿用户,但我们对模型内部工作机制的理解,其实远远落后于部署它们的能力。这就好比咱们造了一台高速跑车,却没搞明白引擎怎么轰响的,这真的靠谱吗?过去几十年,基准驱动的研究确实带来很多进步:各种榜单、性能指标、能力追踪,成绩单挺漂亮。但跑分上去了,模型为什么这么跑、个别情况下为什么掉链子,咱们往往两眼一抹黑。

模型科学的四大方向:验证、探索、引导、优化
所谓的模型科学,核心就是要把分散在各地的模型分析工作收拢起来,形成一个系统打法。具体来说,它包含了四个关键动作:
从“做出来”到“理解透”,这是一场认知升级
说白了,以前咱们追求的是“做出来、跑得快”,现在社区希望大家追求“理解透、控得住”。毕竟,一个连开发者自己都没吃透的模型,直接放进数十亿人手里,风险实在太大了。论文里提到的“评估能力的进步”和“多样化任务”都挺好,但它们取代不了系统性的理解工程。
可以这样想:模型科学就像是给 AI 行业装上了一面后视镜——不光盯着前方的路(性能),还得看明白车是怎么跑的(机制)。这条路并不轻松,但确实值得走。面对越来越复杂的系统,咱们还能只顾着堆数据、刷榜单吗?显然不能。