科技领域近日迎来一项重要突破,苹果公司与特拉维夫大学联合研发的“原则性粗粒度”(PCG)语音生成技术,为AI文本转语音(TTS)领域带来了新的解决方案。这项技术通过优化验证机制,成功突破了传统模型在生成速度上的瓶颈。
当前主流的TTS技术多采用自回归模型,其工作原理类似于“逐字拼写”——系统基于已生成的语音片段预测下一个音素。这种模式要求预测结果必须与预设值完全匹配,导致许多听觉效果相近但未完全吻合的输出被系统拒绝。这种严苛的验证标准虽然保证了准确性,却显著降低了整体生成效率。
研究团队提出的PCG技术通过引入“声学相似组”概念,重构了验证逻辑。该技术不再将每个语音单元视为独立个体,而是将具有相似听觉效果的音素归为同一组别。只要预测结果落在正确组别范围内,系统即判定为有效输出。这种“范围验证”机制相比传统的“单点验证”,在保持音质的同时大幅提升了处理速度。
在技术实现层面,PCG采用双模型协作架构:轻量级模型负责快速生成候选音素,大型“裁判模型”则负责质量把控。当候选音素属于正确声学组时,系统直接采用该结果。这种分工模式既保留了小模型的高效特性,又通过大模型确保了输出质量,实现了效率与准确性的平衡。
实验数据显示,应用PCG技术后,语音生成速度提升约40%,而音质评分仍保持在4.09分(满分5分)的高水平。在极端测试中,研究人员将91.4%的语音单元替换为同组其他音素,结果仅导致词错率微增0.007,说话人相似度下降0.027,这些变化几乎无法被人类听觉感知。
作为推理阶段的优化方案,PCG技术无需重新训练现有模型即可直接部署,仅需约37MB的额外内存用于存储声学相似组数据。这种轻量化特性使其具备广泛的适用性,为语音合成技术的实际应用开辟了新路径。