前CTO的新交互模型与OpenAI Codex代表了AI交互的两种截然不同的路径:前者彻底抛弃了对话框,实现边听边说边看的实时多模态互动;后者则依然依赖对话框,专注从自然语言到代码的生成。这不仅是速度的差异,更是交互范式的根本对立。
前CTO的Interaction Model:0.4秒的实时对话Thinking Machines Labs发布的Interaction Model把响应延迟压到0.4秒,比GPT-realtime-2.0快了将近三倍。但真正的突破在于它打破了“轮流对话”模式——用户说话时AI能“嗯嗯”回应,写错代码时它能直接插话,甚至能实时分析视频中的动作。这确实不是GPT-4o的升级,而是对旧范式的降维打击。

Codex:对话框里的代码生成器OpenAI Codex则是另一种思路:用户通过对话框输入自然语言描述,模型输出对应的代码。它本质上还是“你一句我一句”的交互,只不过输出的是代码而非文本。这种模式在编程辅助领域很实用,但交互方式依然停留在发微信式的回合制。
凭什么说前CTO的新模型更先进?因为对话框限制了AI的感知能力——你说话时它不能听,它说话时你不能打断。而Interaction Model让AI像真人一样边听边说边看,响应延迟只有0.4秒。相比之下,Codex虽然能生成代码,但交互体验还停留在“打字-等待-看结果”的循环里。
其实这两种交互各有适用场景:Codex适合需要精确指令的代码生成,而新模型更适合需要实时反馈的协作场景。但前CTO的模型确实在交互方式上迈出了一大步——它让AI从“工具”变成了“伙伴”。咱们想想,如果代码生成也能用这种实时插话的方式,那编程效率会不会再上一个台阶?
从对话框到代码生成,再到实时多模态交互,AI的进化路径越来越清晰。前CTO与Codex的对比,本质上就是“对话式AI”与“沉浸式AI”的较量。没错,对话框还没过时,但边听边说边看的新模式,已经让AI交互的边界彻底改变了。