最新基准LiveK12Bench:多模态大模型真能通过高中考试
AI代理也会衰老:部署系统的寿命工程挑战
OmniInteract:实时全模态流式交互基准测试
语言模型自我验证蒸馏:无需外部数据即可自我优化推理能力
阿里千问3.7编程能力全球第二,仅次于Claude
Claude Code 日常驱动:技能、子代理、插件与 MCP 集成实践
恒生港美科技指数将新增SpaceX为成分股
图灵奖得主萨顿联手他山科技,打造“能犯错”的机器人幼儿园
DeepSeek自动研究Skill:人类仅需动脑2小时即可完成论文
雷达-摄像头BEV多任务学习提出跨任务注意力桥接
GeoSolver 以细粒度过程监督扩展遥感视觉推理的测试时推理
引导式Token稀疏扩散模型解决推理性能瓶颈
HiSpec层次化推测解码技术加速大模型推理验证
因果表示学习技术助力推荐系统实现泛化
DIET:合并任务重要性分数实现LLM维度级全局剪枝
LLM推荐基准数据泄漏陷阱:评估结果虚高不可信
Transformer通过上下文学习近似后验预测分布
LeJEPA在加性噪声下可线性恢复世界潜在变量
复旦系触觉具身创业公司获近亿元天使轮融资
TriProRep结构感知预训练提升蛋白质结构预测
Vital Trace提出协议约束患者状态推理,实现纵向临床轨迹分析
TABX:高通量多智能体强化学习沙盒战斗模拟器
开源多模态大模型反常识场景语言偏见评估基准CAIT
双层级优化稀疏查询加速GraphLLM节点级任务
MedCollab框架:IBIS引导的多智能体协作实现临床全周期诊断
大模型思维链效果之谜:无意义中间标记的不合理有效性
DIANOIA:多智能体推理增益的覆盖度-保真度-合成三通道诊断框架
量化KV缓存致注意力偏差,视频扩散模型需偏差校正
MemFail研究揭示LLM记忆系统故障模式黑箱问题
AI安全不只靠对齐,还需有效可控性
Wan2.2 启用 Tail-Aware HiFloat4 实现 W4A4 后训练量化
多轮对话暴露大语言模型可靠性短板:SoS框架揭示“坚持或切换”困境
现代Transformer多模态上下文学习:模态不对称与电路动力学
ERUF框架:基于激活签名从抑制到实体签名擦除的表示遗忘
LLM自建基准测试存在系统性自我偏好
DistractionBench测试揭示VideoLLMs易受无关广告片段干扰
UnityMAS-O:LLM多智能体通用强化学习优化框架
代码执行与自然推理:LLM应对数学变体问题的鲁棒性差异
真实图像反而降低视觉语言模型的词汇判断准确性
Evi-Steer 提出证据调优方法高效引导生物医学视觉语言模型
AnatomiX:解剖学感知接地多模态大模型提升胸片空间推理
协作并行思考新方法:提升大语言模型测试时扩展效率并减少搜索冗余
LoRA持续学习方法实现任务驱动子空间分解与知识共享隔离
DeepSeek降价冲击算力租赁,传闻突袭上市公司回应
Radiuma:零代码可执行图形化工作流生成器实现可重复医学图像分析
Anthropic Claude Code v2.1.152 代码审查自动应用修复建议
SMDD-Bench:检验LLM解决真实小分子药物设计任务的能力
BacktestBench基准:大模型自动化量化回测评估
强到弱模型蒸馏中后段令牌监督引发局部可教性崩溃
kNN-MoE:检索增强专家路由解决分布偏移