基于蒸馏聚合的轻量LLM智能合约安全审计框架
CAPER:面向Text-to-SQL的子句对齐过程监督方法
基于结构化指令表示的大推理模型约束遵循框架
面向受众与意图的机器翻译:LLM多语言大规模系统评估
ARBOR用可复用评分缓冲实现搜索智能体在线过程奖励
CauTion方法:判断何时信任LLM进行集成因果发现
R²-dLLM:时空冗余削减加速扩散大语言模型推理
SEA-NLI:面向东南亚文化的自然语言推理基准发布
PsychoPass:对话几何建模检测多轮LLM越狱攻击
MemTrain自监督上下文记忆训练降低长程LLM代理数据成本
EntSQL基准:面向长上下文企业知识的Text-to-SQL评估
FederatedSkill:联邦学习驱动智能体技能隐私化演进
选择性Token级加密实现大语言模型临床部署隐私保护
SenseJudge提出以用户偏好驱动的可定制LLM评估框架
llama.cpp 项目新增 Mellum 架构模型支持
多智能体经济系统:市场拍卖驱动去中心化集体智能涌现
Reasoning Primitive Induction:从Agent轨迹归纳推理原语构建伪工具库
多模态大模型模因理解:Intent Projection分解字面与语用意图
SCOPE:面向边缘部署的实时自然语言相机代理
ChristBERT:面向德国医学NLP的领域特定BERT预训练策略
VistaHop 基准评估多跳视觉推理,推动深度搜索迭代认知
PIWM框架实现零售场景主动意图推断与干预决策
字节跳动发布Bernini-R-Diffusers图像文本转视频模型
GLINT:稀疏门控实现放射学细粒度视觉语言对齐
TBS:多智能体社交模拟中的“思考-再表达”内省机制
MedCUA-Bench:评估临床AI代理在医疗GUI可靠性的基准
世界模型与多模态大语言模型:具体与抽象推理互补
EvoDS:自我进化数据科学智能体实现技能学习与上下文管理
LAP:面向自主科学的智能体-仪器互操作协议
大推理模型并行推理路径剪枝首个系统化分类法
多轮越狱攻击下GPT-4.1-mini医疗对话不安全率升至80%
LEAP框架赋能通用大模型实现形式数学定理证明SOTA
SkillPyramid分层技能整合框架驱动智能体自我进化
SegTune:基于扩散Transformer的结构化细粒度歌曲生成控制
首个字节原生大语言模型实现原始字节直接理解与应答
BigFinanceBench:面向金融研究代理的工作流基准
TriEval:资源高效评估LLM偏见、毒性及真实性的新流水线
FSA-GRPO:强化学习教听觉LLM利用小样本演示
图神经网络解释机制或加剧决策逻辑泄露与模型窃取风险
KnapSpec将自推测解码层选择重构为背包问题提升吞吐量
DDOR:大模型过度拒绝的可解释测试与修复新方法
ReLoRA:知识重用适配方法加速LLM服务快速迭代部署
窄秘密忠诚植入Qwen模型,暗中诱导用户极端行为
Libra 高效管理 Agentic RL 后训练中的长尾非稳态资源
小模型是GRPO中策略级多样性的天然探索者
CodeHacker自动生成对抗性测试用例,暴露编程竞赛方案漏洞
等变编码器与预测器训练保持精确等变实现对称群零样本泛化
机制设计不足以让LLM智能体合作,亲社会智能体更优
后验采样实现共形语言建模,减少大模型幻觉
vLLM语义路由器:信号驱动决策路由实现混合模态模型