CANTANTE:通过对比信用分配优化智能体系统
风险分层用例配置下T2I生成模型性别偏见审计
CRePE提出弯曲射线期望位置编码实现统一相机控制视频生成
REVELIO 框架揭示视觉语言模型可解释故障模式
StereoTales:多语言框架开放式发现LLM刻板印象
持续学习视角下正交梯度投影减轻大语言模型对齐税
RLHF与DPO偏好学习性能差距的理论归因分析
阿里千问3.7编程能力超GPT/Gemini,全球第二仅次Claude
深圳十五五规划:2030年实时可用算力目标超150EFlops
面壁智能MiniCPM5-1B:1B端侧模型刷新开源SOTA
因特智能AI视觉攻克半导体光罩纳米级检测卡脖子难题
WPS Office原生登陆Windows on ARM平台
水母智能两部AI竖屏剧集入选戛纳,短剧工业化出海
国产Agent模型跻身全球第一梯队,限时免费适配多平台
多中心临床验证PulmoFoundation模型实现肺部病理综合解释
LiFS大规模多中心真实世界数据集评估AI肝纤维化分期表现
ReMind框架:让视频生成器学会动态记忆未观测状态演化
DexSIM:统一因果视频扩散实现实时灵巧手操作模拟
世界模型作为群动作:动作忠实性形式化框架
GPT-4o mini安全过滤器致多模态仇恨检测失效
GitHub Copilot研究揭示LLM对开源创新的影响异于组织环境
基于无监督越狱激活模拟的 LLM 安全对抗训练新方法
MVR-cache:多向量检索与学习型提示分割优化语义缓存
Transformer模型借助范畴论函子实现类比推理形式化
Reflect-Guard用逻辑自反思增强LLM安全分类器抗对抗攻击
AAI框架提出精算接口为AI代理动作定价并执行边界控制
CUA-Gym规模化可验证训练环境与任务,赋能计算机使用代理
llama.cpp 新增对 Gemma4 因果语言模型架构的转换支持
SaaS-Bench实测:Claude等大模型全自动办公通过率不足4%
StreamChar:解耦编排实现长时流式角色音视频生成
Blink采用动态视觉token分辨率增强多模态理解
PixelWizard:分层解耦全局局部,实现超大规模高分辨率视频生成
StreamOV基于证据引导记忆与响应触发实现流式全模态视频理解
Pantheon360基于3D感知360度视频扩散生成数字孪生
利用标注者分歧校准概率目标检测器
校准交互方法解决组合图像检索查询语义歧义
SRUG:阴影引导的生成式城市场景重光照方法
FDDet提出FDD-48数据集与半监督框架实现数据高效食品缺陷检测
遥感组合图像检索方法在地球观测中的迁移性基准测试
物理世界建模统一3D场景理解,多视觉任务融合新方法
VideoMAE中概念激活向量实现物理因果方向控制
多轮LLM现新型后门攻击:回合结构信号可触发恶意行为
FairJudge:可弃权多模态评判器用于文本到图像模型公平性与对齐评估
高熵token是视觉语言模型多模态薄弱点
弱到强泛化改进随机特征岭回归的缩放定律
微调掩蔽扩散模型实现可证明的自校正能力
动态优化与安全指标注入高效越狱T2I多模态安全过滤器
联邦Sketching LoRA框架实现异构客户端LLM高效微调
LLMTabBench:从零到少样本的LLM表格分类评估
DPO离线RLHF遭受高效偏好投毒攻击