SentinelBench:专为长时间运行监控代理设计的评估基准
Google 发布 Gemma 4 E4B-IT 移动端 8-bit 量化模型
LeanMarathon:以进化蓝图实现长程数学自动形式化
AdaMEM:面向语言智能体的测试时自适应记忆方法
PerceptUI:用对齐人类的LLM合成用户替代真人评估UI/UX
Google DeepMind发布Gemma 4-31B多模态助手模型
OpenAI Codex驱动智能体优先工程新范式
OpenAI推出Lockdown Mode防范提示注入,但数据泄露风险仍在
特朗普政府拟入股OpenAI以让美民众共享AI收益
RedKnot以头部感知KV复用突破长上下文服务瓶颈
批评引导的异构多智能体推理增强大模型数学可靠性
QRC框架:零样本获取开放知识理解迷因演变
个人AI助手实现相机胶卷视觉问答研究
DiG-Plan 以扩散引导缓解工具图规划早期承诺问题
行动-状态通信:优化多智能体系统通信效率的论文方案
AI评估地理偏见凸显多样性挑战
SlotGCG:利用位置脆弱性对大语言模型实施越狱攻击
UNIVID统一视觉语言模型实现视频审核多模态推理与可解释输出
LLMCodec 适配视频编解码器实现大模型权重高效压缩
AI编程助手隐藏成本:人类持续监督与认知过载
ALMANAC发布人类协作动作级心理模型标注数据集
因果定位揭示Qwen3-4B模型时间偏好内部子图
MRAgent 用图记忆主动重建,让 LLM 代理推理摆脱静态检索
Trace2Skill:从执行轨迹归纳可迁移智能体技能
大语言模型微调产生新兴错位,训练中防御方法被提出
Transformer拓扑困境:前馈架构限制动态状态跟踪
RAG系统需超越事实锚定,转向表征多元观点
深圳科学家领衔发布亚洲首个合成细胞十年技术路线图
WPS笔记发布:AI贯穿记录、整理与复用全过程
CLASH 数据集:评估大模型在多视角高风险困境中的判断能力
生物医学世界模型:从静态识别转向动态机制预测
AI行业令牌账单到期,厂商紧急转向成本控制
PC-Talk实现音频驱动人脸动画的唇音对齐与情绪控制
大语言模型表达感受实验挑战传统对齐策略
Meta为Facebook创作者推出AI助手,助其分析发布时机与评论
系统性分析四大主流大语言模型的政治与意识形态偏见
PC层多项式权重预条件助力LLM预训练
Google 推出 Gemma 4 12B QAT 量化模型 支持任意模态转换
搜索时间污染致AI深度研究代理公开基准评测性能虚高
Airbnb CEO Brian Chesky 计划成立新AI实验室
Open-H-Embodiment 数据集发布,推动医疗机器人基础模型发展
BenchAgent协议评估:多智能体对LLM工作流增益几何
苹果批准Poke成为Messages for Business首个AI代理
SUPERNOVA用自然指令强化学习扩展LLM通用推理
国家队领投,百曜科技完成数千万元融资打造AI虚拟细胞
华为云Token大战中另辟蹊径:重健康度轻总量
视觉Hopfield记忆网络挑战Transformer与Mamba范式
OpenAI发布六款Codex职业插件,覆盖数据分析到投资银行
AWS发布前沿代理:安全测试与云运维自主化
橡木果“本能驱动”路线,开辟自下而上具身智能新范式