谷歌Gemini Omni多模态模型可对话生成并编辑视频
Google DeepMind Genie接入街景,模拟真实街道与动态场景
Google搜索框革新,AI代理驱动新一代搜索体验
Anthropic 发布 Claude 小企业版,集成连接器与工作流助力日常运营
Anthropic正式发布全新Claude Opus 4.7模型和Claude Design设计工具
谷歌发布 Gemini 3.5 Flash,前沿智能与行动能力融合
字节跳动发布任意到任意多模态模型Lance
搜索自对弈:无需监督推进智能体能力前沿
基于扩散生成式仿真器的无训练贝叶斯滤波
代码引导推理框架CGR提升小语言模型MCQA性能
滴滴提出D³-Subsidy在线顺序补贴决策算法优化供需平衡
Google搜索框升级:AI代理重塑搜索体验
去中心化学习中利用局部邻居检测后门攻击
TabQL:用表格基础模型替代DQN的上下文Q学习框架
CODA:将Transformer块重写为GEMM后记程序缓解内存瓶颈
多智能体LLM聚合算法OW与ISP:利用高阶信息超越多数投票
Lens自适应相机传感器:从模型视角捕获高质量图像提升视觉性能
轻量快速后门模型检测方法应对毫秒级攻击
轻量快速后门模型检测:应对毫秒级后门植入攻击
LLM社会模拟研究需先通过鲁棒性审计方可提出科学论断
TwinRouterBench:面向代理型LLM路由的静态与动态实时评估基准
EVA-0:仅需两次前向传播实现测试时模型进化
The 99% Success Paradox: When Near-Perfect Retrieval Equals Random Selection
EMO-BOOST:情感增强音视频特征提升深度伪造检测泛化能力
GeoX提出自我对弈与可验证奖励方法攻克地理空间推理难关
AQuaUI:利用自适应四叉树压缩GUI代理视觉令牌
Cubit 提出用核岭回归实现 Transformer 中的 Token 混合
AQuaUI用自适应四叉树压缩GUI智能体视觉令牌
Cubit: Token Mixer with Kernel Ridge Regression
LLM生成代码中的库幻觉:基于开发者查询的供应链风险分析
LVLM胸部X光推理的视觉归因可信度缺乏验证
CADENet条件自适应异步双流增强网络突破恶劣天气自动驾驶感知实时瓶颈
PEEK:上下文地图作为长上下文LLM智能体的方向缓存
动态模型合并瘦身法优化精度与效率
ClinSeekAgent自动化多模态证据寻求用于临床推理
多智能体架构实现教科书级细粒度评估基准自动生成
GoLongRL:能力导向的长上下文强化学习多任务对齐框架
HalluWorld:基于参考世界模型的大模型幻觉受控基准
DECOR:基于信息操纵理论细粒度审计大语言模型欺骗
SCA框架:通过逐步置信度归因诊断黑盒LLM多步推理失败
OP4KSR 提出一步式无补丁4K超分辨率,抑制周期性伪影
Grad-ECLIP 被指非新路线,等价简化方法 Attention-ECLIP 已提出
Real2Sim:物理驱动可编辑高斯泼溅框架保障自动驾驶时空一致性
扩散模型泛化归因于数据依赖脊流形归纳偏差
三阶段学习法驱动简单模型在长期时间序列预测中达到高性能
大语言模型医学知识评估缺失时间动态感知
KVM:可扩展块循环压缩记忆的线性复杂度Transformer
融合视觉与触觉的多模态世界模型 实现机器人交互精准预测
BEAVER:面向企业复杂SQL场景的Text-to-SQL基准测试
SREGym 推出高保真故障场景实时基准测试