BAAI发布URSA-1.7B文本到图像模型
LANG框架以语言自适应提示指导强化多语言推理能力
昆仑万维开源Skywork-UniPic-1.5B多模态统一模型
月之暗面发布 Moonlight-16B-A3B-Instruct,16B参数激活仅3B
智源基于Qwen3-VL发布RoboBrain2.5-4B机器人视觉模型
五条PyTorch代码SVD分解lm_head权重揭示LLM秘密词典
字节跳动UMO模型实现文本到图像的主体个性化生成
分布能量基模型用于结构化LLM推理的不确定性感知验证
稀疏注意力蒸馏实现顺序替换,降低Transformer推理成本
GeoX:自我博弈与可验证奖励驱动的地理空间推理框架
查询感知流扩散方法为图RAG提供检索理论保证
SceneCode:用可执行世界程序生成可编辑铰接物体室内场景
多模型LLM调度器:CPU-GPU卸载与抢占的实证洞察
SSR自对弈强化学习训练超级智能软件代理
Argus提出证据组装方法,实现可扩展深度研究智能体并行搜索
左医科技:AI医疗落地从赢得科室主任信任开始
IBM发布Granite Switch 4.1-3B预览版语言模型
StarCoder2-15B-Instruct 指令微调版发布,专注代码生成与对话
Claude Opus 4.6 借助 Rocq-MCP 自主证明 10 道 Putnam 竞赛题
百度健康以场景为锚,AI破局大健康产业供需矛盾
金智维与银河期货七年合作:数字员工在50+场景实现99.97%准确率
The Path AI疗法模型心理健康安全评分95,远超消费级产品
智源研究院发布Emu3.5视觉分词器模型
艾迪普元典大模型:以AI治理激活企业沉睡数字资产
零点有数联合中国人寿推出“真AI宠”宠物保险科技平台
百川智能发布14B参数医疗大模型Baichuan-M1-14B-Base
Mistral发布Voxtral-4B多语言文本转语音模型
多智能体强化学习实现超人类安全敏捷赛车
MLCommons Chakra:标准化执行轨迹赋能AI基准测试与协同设计
SEGS 提出结构能量引导采样解决文本到3D生成的视角不一致问题
HAVEN分层对齐多模态基准统一视频理解评估
异构感知数据集调度实现音频大语言模型高效训练
小语言模型的可执行推理支架评估:CGR协议
昆仑万维发布Matrix-Game-3.0图像文本转视频模型
百川智能发布Baichuan-Omni-1d5全模态基础模型
特朗普推迟AI安全行政令,称原语言或成阻碍
智源发布RoboBrain2.5-8B-MT多模态模型
Dr.LLM动态层路由:按需分配计算深度提升效率
MTraining分布式动态稀疏注意力实现超长上下文高效训练
Mega-ASR以规模化真实声学模拟突破语音识别鲁棒性瓶颈
STAR-PólyaMath多智能体推理框架解决长时推理可靠性瓶颈
真实世界自回归Transformer图灵完备性依赖上下文管理
STAR-PolyaMath多智能体框架攻克长时数学推理可靠性难题
HalluWorld:基于参考世界模型的幻觉评估基准提出
FormalASR端到端模型实现中文口语直转正式文本
IBM Granite Speech 4.1-2B Plus多语言语音识别模型上线
IBM Granite 311M多语言嵌入模型发布,支持ONNX/OpenVINO
apple/Sharp
一步扩散模型实现真实世界时空视频超分辨率
低计算水印移除新方法:双域自然投影平衡三目标