Grounded Decoding:无训练解码框架提升RAG事实一致性
QuAP原型系统统一声音检索与程序化生成
d2框架:用轨迹似然估计增强扩散语言模型推理
Safety Game:约束优化实现黑盒大模型推理时安全对齐
VICR:视觉上下文恢复框架实现真实图像超分辨率
AdaptiveK SAE提出动态稀疏自编码器提升LLM可解释性
PaintBench 基准:精准视觉编辑的确定性评估方法
WUSH 提出近最优自适应变换以优化 LLM 量化误差
单步生成模型在线偏好微调方法DrPO提出漂移偏好优化
迈向物理基础模型:单一预训练模型适配多领域科学模拟
几何感知隐式记忆解决视频世界模型长时推演遗忘问题
斯坦福CS336课程制定AI Agent使用指南
Ollama 0.30 融合 llama.cpp,扩展 GGUF 模型支持并提升 NVIDIA 性能
ST-DRC:时空解耦参考条件实现身份保留视频生成
Qwen2.5等模型低资源语言安全失效本质为动作失败
ExpWeaver:用潜在RAG让LLM智能体从经验中学习
LL-Bench:大规模生成模型低级视觉任务评估新基准
弱教师信任函数实现近无损弱到强泛化研究
伊利诺伊大学提出硅片顺序堆叠新工艺以延续摩尔定律
覆盖最大化检索:长视频生成中一致性的缺失信息找回方法
SciAgentGym:LLM Agent多步科学工具使用评测基准
LLM分层异构推理框架:自适应复杂压缩减少过度思考
LongLive-RAG:检索增强框架解决长视频生成累积误差与身份漂移
Polaris 指令驱动图像生成规模化,满足百万级风格
PlanarBench基准测试:LLM平面图ASCII绘制空间推理能力评估
BraveGuard:面向开放世界威胁的计算机使用代理自进化防御框架
CoCoVideo:基于商业模型的高质量AIGC视频检测基准
大语言模型缺乏自我能力评估,研究提出CSA策略学习认识局限
Reasmory:用3D重建作为显式记忆增强VLM空间推理
BitsMoE:频谱能量引导比特分配实现MoE大模型超低位量化
DyLLM:显著性令牌选择与部分注意力实现高效扩散LLM推理
强化学习驱使代理型Transformer学会树搜索的机制证明
大语言模型性别推断受最小上下文干扰打破语境不变性假设
多模态大模型注意力头中的函数向量负责视觉关系传输
MAPR:预测奖励验证元意识提升推理模型性能
智能体操作系统AOS:将智能体控制平面嵌入并超越传统OS
RL评估基准被指失效:训练集与测试集效果几乎无异
2-bit量化使推理模型陷入冗长无效推理链
大型多模态模型在归纳物理推理中表现不佳
贝叶斯非负奖励模型BNRM缓解RLHF中的奖励黑客问题
六大主流LLM应用AI视频通话性能基准测试
安全必须优先于自演化开放型AI的大规模部署
MedSynapse-V:潜在记忆演化弥合视觉感知与临床直觉认知偏差
从片段到场景:视觉语言模型赋能自动驾驶时间理解
检索对齐表格基础模型在真实EHR约束下实现稳健临床风险预测
跨境零售平台GenAI实验:客服匹配广告七流程提升销售
DenseMLLM提出标准化多模态大模型实现密集预测
利用近似微分等价性聚合功能相似神经元压缩神经网络
AgentProcessBench:工具使用智能体步骤级过程质量诊断基准
黄仁勋称迈威尔科技或成万亿美元公司,盘前涨超25%