SleepVLM：基于视觉语言模型与AASM规则的可解释睡眠分期

作者：袖梨 2026-06-05

SleepVLM：用视觉语言模型“看懂”睡眠波，分期结果还能解释为什么

日前，学术预印本平台arXiv上出现了一项名为SleepVLM的研究——它把多通道多导睡眠图（PSG）波形图像丢给视觉语言模型（VLM），结合美国睡眠医学会（AASM）的评分规则，自动给出睡眠分期，同时生成临床医生能看懂的推理理由。在保留测试集上，SleepVLM的Cohen's kappa系数达到0.767，这算是挺高的临床一致性了。

睡眠分期为什么需要“可解释”？

传统自动睡眠分期虽然准确率能赶上专家，但最大的痛点在于它“只给结果，不给理由”——医生拿到一个“N2期”的标签，没法知道模型到底看了哪段脑电波、哪段眼动图才下的判断。SleepVLM的做法很直接：先通过波形感知预训练让模型学会读PSG波形的“形状语言”，再用AASM官方规则做监督微调。这样一来，模型输出的分期结果背后就附了一段文字说明，比如“出现了K复合波和纺锤波，符合N2期定义”。这不就让人踏实了吗？

模型是怎么做到的？