Expanse 预测工作负载需求，解锁 HPC/GPU 集群闲置容量

作者：袖梨 2026-06-02

Expanse 预测工作负载需求，解锁 HPC/GPU 集群闲置容量

最近，Expanse 团队（Ismaeel、Eren、Yafet 与 Nikodem 四位成员）推出了一套新方案：通过深度分析源代码、作业脚本与硬件参数，提前预测工作负载的真正需求，从而解锁 HPC/GPU 集群的闲置容量。说白了，这套系统能让数据中心不再白白浪费巨额算力——咱们先看数据：当前数据中心的有效利用率只有 30% 到 40%，用户申请的资源往往远超实际需要。

问题到底出在哪？

用户怕任务跑不起来，总会多要资源；调度器又看不到任务细节，只能按静态配置分配。结果呢？大量 GPU 和 CPU 核心处于空转状态，电费照付，硬件折旧不等人。Expanse 的做法挺直接——它不依赖管理员手动调整，而是直接读取集群里的 Kubernetes 或 SLURM 脚本，分析代码特征和硬件规格，计算出某个作业到底需要多少核心、多少内存。