招商局狮子山AI实验室用LiOS打通具身智能全链路
DataShield:高效过滤LLM良性微调中的安全降级数据
CART 提出参数高效循环Transformer,交叉注意冻结KV实现稳定训练
PEFT规模化:万亿参数基础模型上的百万个性化模型
RoboTrustBench:四类场景评估机器人操作视频世界模型可信度
Sympatheia:基于连续情感调节的自适应语音助手
OpenWebRL 以在线多轮强化学习缓解视觉网页代理数据依赖
BenchEvolver通过解为中心演化合成前沿基准任务
EuroBERT:面向欧洲语言的多语言编码器规模化扩展
AgentRedBench:针对SaaS集成的LLM代理动态红队与集成感知防御
大语言模型奖励模型仍存长度、谄媚和过度自信三大偏见
BranPO用可扩展对比分支采样解决大模型长期代理强化学习难题
Med-V1以3B参数小模型实现零样本生物医学证据归因
ADRA-Bank:评估学术深度研究代理的模块化基准
COMAP实现语言代理世界模型与策略的共同进化
Agent-R1:面向智能体强化学习的统一模块化框架
WAON:大规模日语图文数据集增强视觉语言模型文化适应能力
PaperVoyager 用视觉语言模型将论文转为交互式网页
Global PIQA:覆盖100+语言文化的常识推理评估基准
SmartThinker 提出渐进式链式思考长度校准提升推理效率
SWE-rebench V2 发布大规模语言无关软件工程任务集
语音语言模型自我意识对齐弥合语义理解与声学表达鸿沟
Code2Math:利用代码执行环境自动演化数学难题以突破LLM瓶颈
TIGER:基于图证据路由的可追踪推理缓解多模态生成幻觉
LLM利用密集反馈替代标量奖励合成多智能体策略
大语言模型赋能交通系统管理运营:从文本推理到多模态决策支持
弱批评者蒸馏:用弱模型指导强模型的可扩展监督方法
MindClaw:闭环具身心智状态推理实现精准干预
DeLask:通过跳过深层解码器层缓解大语言模型幻觉
Ryze自动从生物医学论文提取证据并合成训练数据
StreamingVLM:面向无限视频流的实时理解模型
LFTutor用LLM教普通人识别逻辑谬误,从源头打击错误信息
Qwen3弱模型偏好差异与LoRA合并训练强语言模型
CAREAgent:结构化推理与工具集成的临床医嘱生成智能体
Science Earth:面向AI原生科学发现的星球级操作系统
TriLens:逐层Logit透镜熵实现白盒幻觉检测
POIROT:通过智能体审问检测多智能体系统故障
HomeFlow可验证仿真数据飞轮驱动智能家居代理训练
SIRIUS-SQL:执行反馈锚定多候选消除SQL生成冗余
SkillSmith:技能与工具协同进化框架实现智能体自我改进
EAPO:让智能体学会何时不使用工具,缓解工具滥用
研究显示AI算法会诱导人类道德判断趋同
测试时提示优化提升VLM奖励模型零样本奖励准确性
MIND模型:显式建模数据流形几何的扩散图像生成
LLM Agent弥合时间序列预测的最后一公里业务上下文鸿沟
SMH-Bench:智能家居LLM智能体环境推理与动作基准
论文提出实用智能体系统的简单性、可控性与成本可预测设计
视觉噪声引导的上下文蒸馏实现多模态大语言模型遗忘
BenHalluEval:面向孟加拉语的大语言模型多任务幻觉评估框架
AutoMedBench 提出面向医学 AI 自动化研究的流程感知基准