ResearchArena测试Claude、Codex、Kimi自动研究：论文可生成但质量存疑

作者：袖梨 2026-05-31

ResearchArena 日前对 Claude Code、Codex、Kimi Code 三款自动研究系统进行了系统测试，发现它们能生成完整论文，但质量存疑。这套轻量级框架让 AI agent 自行完成从选题构思到论文写作的全流程，结果却暴露出不少问题。

ResearchArena 是一种最小脚手架设计，允许现成的 agent 在仅需少量人工引导的情况下独立跑完“构思—实验—写论文—自我改进”的完整科研循环。参与测试的 agent 包括 Claude Code（基于 Opus 4.6）、Codex（基于 GPT-5.4）以及 Kimi Code（基于 K2.5）。说实话，这种“放养”式科研听起来挺酷，但实际表现如何呢？

测试覆盖了 13 个计算机科学种子课题，每个 agent 在每个领域重复 3 次试验。结果发现，这些自动生成的论文在结构上确实有模有样——有摘要、引言、方法、实验、结论。但稍微细读就能察觉，很多结论是靠模板堆砌出来的，缺乏真正的推理和创新。

为什么质量会打折扣？首先，agent 的“实验”环节往往只是跑一下预设脚本或复现已有基准，并没有真正探索新的假设。其次，在写论文时它们容易生成自相矛盾的表述，甚至捏造虚假引用。这样的论文，你敢直接拿来引用吗？

Claude Code 和 Codex 的表现相对稳定，但 Kimi Code 在部分种子课题上出现了逻辑断裂。比如在算法复杂度分析这类需要严谨推导的任务里，Kimi Code 生成的文本虽然流畅，但关键公式的推导步骤被跳过了。这就好比一篇论文说“结果成立”，但中间怎么推理的？全是空白。

其实自动研究本身的价值毋庸置疑——它能快速生成草稿、帮助研究者节省初稿时间。但 ResearchArena 这次测试也提醒咱们：agent 生成的论文只能当作“粗坯”，离真正的学术质量还有不小差距。想要直接投稿？那可太冒险了。

总体来看，ResearchArena 的这组对比实验算是给行业泼了一盆冷水：自动研究的可行性没问题，但质量天花板确实存在。Claude Code、Codex 和 Kimi Code 各自的优缺点也很明显，开发者可以根据需求选择。至于“什么时候能用上靠谱的自动写论文工具”——答案恐怕还得等几年。

ResearchArena测试Claude、Codex、Kimi自动研究：论文可生成但质量存疑

相关文章

精彩推荐