ResearchArena测试Claude、Codex、Kimi自动研究:论文可生成但质量存疑

作者:袖梨 2026-05-31

ResearchArena 日前对 Claude Code、Codex、Kimi Code 三款自动研究系统进行了系统测试,发现它们能生成完整论文,但质量存疑。这套轻量级框架让 AI agent 自行完成从选题构思到论文写作的全流程,结果却暴露出不少问题。

ResearchArena 是一种最小脚手架设计,允许现成的 agent 在仅需少量人工引导的情况下独立跑完“构思—实验—写论文—自我改进”的完整科研循环。参与测试的 agent 包括 Claude Code(基于 Opus 4.6)、Codex(基于 GPT-5.4)以及 Kimi Code(基于 K2.5)。说实话,这种“放养”式科研听起来挺酷,但实际表现如何呢?

测试覆盖了 13 个计算机科学种子课题,每个 agent 在每个领域重复 3 次试验。结果发现,这些自动生成的论文在结构上确实有模有样——有摘要、引言、方法、实验、结论。但稍微细读就能察觉,很多结论是靠模板堆砌出来的,缺乏真正的推理和创新。

为什么质量会打折扣?首先,agent 的“实验”环节往往只是跑一下预设脚本或复现已有基准,并没有真正探索新的假设。其次,在写论文时它们容易生成自相矛盾的表述,甚至捏造虚假引用。这样的论文,你敢直接拿来引用吗?

Claude Code 和 Codex 的表现相对稳定,但 Kimi Code 在部分种子课题上出现了逻辑断裂。比如在算法复杂度分析这类需要严谨推导的任务里,Kimi Code 生成的文本虽然流畅,但关键公式的推导步骤被跳过了。这就好比一篇论文说“结果成立”,但中间怎么推理的?全是空白。

其实自动研究本身的价值毋庸置疑——它能快速生成草稿、帮助研究者节省初稿时间。但 ResearchArena 这次测试也提醒咱们:agent 生成的论文只能当作“粗坯”,离真正的学术质量还有不小差距。想要直接投稿?那可太冒险了。

总体来看,ResearchArena 的这组对比实验算是给行业泼了一盆冷水:自动研究的可行性没问题,但质量天花板确实存在。Claude Code、Codex 和 Kimi Code 各自的优缺点也很明显,开发者可以根据需求选择。至于“什么时候能用上靠谱的自动写论文工具”——答案恐怕还得等几年。

相关文章

精彩推荐