UniVoice:统一模型同时实现语音与歌唱声生成
日前,一个名为 UniVoice 的统一模型在学术领域发布,其核心突破在于能够使用单一框架同时完成文本转语音(TTS)与歌唱语音合成(SVS)。过去,这两项任务通常由独立的模型负责,因为要生成自然的说话声与可控的歌声,对底层算法的要求几乎相反。UniVoice 的提出,意味着一个输入源可以灵活输出不同风格的语音,无需切换系统。

两种任务的核心差异
文本转语音(TTS,将书面文字转化为自然语音)与歌唱语音合成(SVS,根据乐谱和歌词生成歌声)看似相近,实则对生成过程提出了截然不同的要求。说话声需要灵活、由语言驱动的韵律,语速和语调会根据上下文自然变化。而歌唱声则必须满足明确的旋律控制与精确的节奏对齐——音符的高低、时长不能随意调整。这种不匹配使得训练单个模型同时胜任两项工作极富挑战性,因为与旋律相关的条件在歌唱时必须强约束,在说话时则不能过度限制。
统一框架如何克服瓶颈
UniVoice 的设计思路正是针对上述矛盾。它让模型在生成语音时只依赖文本信息,而在生成歌声时则引入旋律与节奏作为强约束。这种分情况处理的方式,使得模型能在一个共享的骨干网络中学习两种任务,但又能根据输出目标切换行为模式。
可以预期的应用场景
这种统一能力在实际应用中有不少价值。例如,在虚拟助手或内容创作工具中,一个模型既可以朗读新闻稿,也能为用户哼唱一段简单旋律;对于语音合成领域的研究者而言,维护一个模型比维护两套独立系统要简便得多。尽管 UniVoice 当前处于论文预印本阶段,但它展示的技术方向——用统一架构应对语音与歌唱的不同需求——为后续开发更通用的语音生成方案提供了具体参考。