MapAgent:面向城市级车道级地图的工业级智能框架
AI代理模型需学会何时拒绝以保障多步工具安全
LLM在科学模拟决策中缺乏对假设与机制的结构化推理
SciDER:数据为中心的多智能体系统自动化科研全流程
MAMA框架揭示图拓扑对多智能体LLM内存泄漏的影响
PoliticsBench:多轮角色扮演评测大模型政治价值观
大语言模型在OTC用药时间不确定性下的剂量决策评估
MemoryDocDataSet:联合多会话记忆与长文档推理新基准
大语言模型测试时边界推理方法有效增强动态规范对齐
StreamMA流式通信减少多智能体推理延迟并提升效果
语音大模型逻辑推理中实体绑定失败诊断与链式思维干预
Mid-Think:Token级触发词实现免训练中等预算推理
Cartridges:模块化KV缓存实现大规模文档零预填充推理
用标准化病人案例评估大语言模型动态临床决策能力
OAR:基于结果的优势重塑实现数学推理细粒度信用分配
CHARM框架:检测与缓解Agentic RAG中的级联幻觉
DetectZoo 统一工具包实现文本音频图像多模态 AI 内容检测
LLM评判者偏见致奖励黑客:Rubric强化学习漏洞重现与检测
Persona-Plug插件让大模型实现个性化输出
元代理挑战(MAC)评估框架:测试AI自主开发代理系统能力
大模型推理时漏洞:短标记注入可改变任意步安全对齐
乐鑫推出ESP32-S31双核RISC-V多协议SoC
T*通过轨迹感知强化学习实现渐进式块缩放提升解码并行度
几何感知幻觉检测方法提升大模型事实可靠性
MedRedFlag:LLMs如何应对健康问题中的隐含误解
RL训练使检索增强生成从追求正确转向忠实推理
DMAIC启发LLM智能体系统提升工业异常检测
OpenRFM解析关系型Transformer的上下文学习差距
AgentJet 发布解耦多节点群组训练框架赋能 LLM 智能体强化学习
LLM代理凭证泄露的预输出激活探测与蜜令防御
神经网络架构搜索联合优化量化与架构的LLM压缩方法
GAI 方法解决大模型生成标签在因果推断中的偏差问题
基于上下文完整性的查询重写实现隐私保护LLM委托
基于结果的强化学习让Transformer自发生成推理链,但依赖数据质量
平稳性感知检索增强时间序列预测方法
MCP服务器描述与代码不一致的测量、检测及安全影响
自回归一致性危害大语言模型安全对齐的深层机制
TabPFN预训练文本编码器突破高基数文本特征信息瓶颈
流匹配校准解决模拟推断模型误设定问题
FindIt基准:面向通用多模态大模型的格式感知视觉检测评估
Hyper-ICL提出双曲锚蒸馏注意力校准,解决多模态ICL不稳定问题
PDMR框架提出潜在空间运动追踪实现动态3D MRI前瞻性重建
ChannelTok:轻量通道式视觉标记器实现高效灵活长度
分数生成模型遗忘与稳定性:采样误差定量界
GroupToM-Bench基准揭示多模态大模型群体心智与社会涌现缺陷
IMPose:交互式多人动态姿态标注与纠错传播
xAI Grok Imagine Video 1.5提示指南:Replicate详解同步音视频生成
Echo-Infinity用可学习演化记忆实现实时无限视频生成
检测器遗忘取证:研究者阻断语义捷径提升AI图像检测泛化性
I2I模型肖像编辑存在软擦除和刻板印象替换两类人口统计偏差