Ryze自动从生物医学论文提取证据并合成训练数据

作者：袖梨 2026-06-03

Ryze系统发布：自动从生物医学论文提取证据并合成训练数据

这款名为Ryze的全自动化系统，刚一露面就在AI和生命科学交叉领域引发了不小关注。它能把原始生物医学论文直接转换成带有完整支撑证据的问答对，并为领域专属视觉语言模型（VLM，一种能看懂图片和图表并理解文字的AI模型）生成高质量训练数据。说白了，Ryze要解决一个老难题：论文里的答案往往分散在图表、表格、说明文字和正文中，现有的模型很难一下子把它们全串起来。

现有模型的瓶颈在哪？

通用视觉语言模型在生物医学研究里其实挺不靠谱的——原因很简单，一篇论文里正确的答案证据是东一块西一块的，可能是左下角的电镜图，也可能是右上角的数据表。你让模型光看文字不看图，它肯定出错。但目前解决这个问题的办法，要么是花钱请专家人工标注（成本高得吓人），要么是用合成数据来训练，可这些合成数据往往丢掉了关键的证据结构。这就导致训练出来的模型，基础不牢。

那Ryze是怎么干的？它直接对原始论文下手，用算法自动定位那些分散的视觉元素——图、表、图表、说明文字——再跟论文正文里的句子匹配起来。这过程完全自动化，不需要人工介入。真正有意思的是，它合成出来的问答对，每一个答案都附带了完整的支撑证据。你问“这个基因在哪种细胞里表达最高？”系统不光给你答案，还会指给你看“答案来自图3B的左半部分”和“表2的第三行”。这种证据链条，算是给模型训练加了个保险。

自动提取： 先扫描PDF，把论文中的图表、表格和文字区块识别出来。
证据关联： 再用算法找到哪些视觉元素和哪些文字段落是在说同一件事，把它们绑定。
数据合成： 最后基于这些绑定的“证据对”，自动生成问答数据，每个答案背后都有具体的出处。

这意味着什么？

对于研究机构或者药企来说，这意味着他们不用再花大价钱请人给论文做标注，也不需要依赖那些一知半解的通用模型。Ryze自己就能从海量论文里迅速抽取出带证据的训练数据，然后用来训练更懂行的生物医学AI。这效率，确实让人眼前一亮。你还真别说，一篇论文里的证据结构那么复杂，它居然能自动梳理清楚，这难道不是现有模型常常掉链子的地方吗？

说到底，给AI喂数据这件事，过去靠人工、靠堆人，现在如果能靠自动化把证据链也一并做出来，那咱们离更可靠的生物医学AI助手，就真的又近了一步。