2024美国大选:生成式AI用模因降低政治参与成本
SaaS-Bench:用真实SaaS评估计算机使用智能体的专业工作流能力
后训练语言模型能识别并响应自身生成内容
LLM学习专家诊断推理:基于NEJM临床病理会议案例
Walsh谱旋转与Intel auto-round实现极端低位LLM量化
OmniSapiens:异构感知相对策略优化的社交行为处理基础模型
九国公众对军事AI态度调查:超越“杀人机器人”迷思
大语言模型微调生命周期安全:威胁、防御与未来方向
几何感知生成自编码器实现无标签语言模型流形干预
LLM编程代理驱动即时系统:从零合成专用核心存储
LLM智能体社会动态行为新研究:合作机制比结果更重要
AgentHijack:首个评估计算机代理在环境干扰下鲁棒性的基准测试
KT4EQG:基于知识追踪的个性化习题生成方法
FrontierOR基准测试评估LLM设计大规模优化算法能力
自适应进化CoT越狱攻击暴露LLM推理安全新漏洞
MEMOR-E:融合上下文与微调LLM的阿尔茨海默症辅助机器人
CLiViS用语言-视觉协同增强具身视觉推理认知地图
Agent-X:视觉中心代理任务深度多模态推理基准
CARTBENCH:视觉语言模型对中国艺术理解、解读和真实性的评估
VCF:推理时向文本扩散模型注入图像引导的双重条件方法
无奖励对齐法解决多目标冲突提升大语言模型对齐效果
Claw-Anything:衡量个人助理广泛访问用户数字世界的基准
MemSkill:让大模型代理的记忆技能可学习与自演化
用细粒度事实核查与领域适应减少医疗LLM幻觉
大语言模型评估作弊与高估:一次性密码本框架下的基准研究
ChunkLLM:轻量可插拔框架加速大模型推理
RouteScan通过专家路由遥测实现MoE大模型非侵入式安全审计
AgentFugue:多对等智能体通过集体推理扩展长期任务能力
LiveMCP-101 基准:压力测试与诊断 MCP 智能体的复杂查询
RLDF:去噪反馈强化学习用于扩散语言模型策略损失估计
语法引导稀疏注意力:提升Transformer效率与可解释性
大语言模型长时间编程会话中人格漂移被ContextEcho基准揭示
扩散语言模型填充提取训练数据风险被低估
llama.cpp CUDA实现快速沃尔什-哈达玛变换
Ollama v0.30.0 改用 llama.cpp 架构原生支持 GGUF 并引入 MLX 加速
Nvidia Vera CPU 基准测试:Olympus 核心性能表现强劲
Cloudflare Flagship正式上线:面向开发者的全栈边缘平台
千问AI眼镜线上零售额份额超30%,稳居行业第一
红杉华兴投了AI产品社区观猹,02年创始人仲泰打造大众点评式平台
World-R1 用强化学习为文本生成视频加上 3D 约束
MVISTA-4D:单视图RGBD生成任意视角4D场景,赋能机器人操作
TrackRef3D实现3D高斯泼溅的多视图一致开放世界指代分割
JLT:在FLUX.2 VAE潜空间上进行干净预测的130M扩散Transformer
RT-Lynx用半结构化稀疏性削减扩散模型近半FLOPs
华为推出AI DC全栈数据基础设施方案,加速行业智能化
PhyWorldBench基准:评估文生视频模型的物理真实性
Xreal携手谷歌,智能眼镜行业终于迎来转折点
快手Keye2.0引入DSA注意力,开启多模态强化推理新范式
去中心化LLM协作新方法:多智能体Actor-Critic优化
Kalai-Vempala概率框架揭示大模型幻觉率等于训练数据缺失质量