PilotTTS：支持情绪控制的AI语音合成

qq2309931055 发表于昨天 11:37

PilotTTS 是一款基于大语言模型（LLM）的文本转语音系统，采用“简化但高效”的架构设计，在完全开源组件基础上，通过高质量数据工程实现了接近业界顶级水平的语音生成效果。相比依赖复杂闭源流程的传统 TTS 系统，PilotTTS 更强调开放性、可控性与高质量训练数据构建。该系统不仅在说话人相似度与文本内容准确率方面表现出色，还支持丰富的情绪与副语言控制，使生成语音更加自然、生动且富有表现力。
下载地址：
https://pan.quark.cn/s/ba3d3423dc73
核心功能：高质量文本转语音（TTS）：生成自然流畅的人声语音高相似度语音克隆：精准还原目标说话人音色内容一致性控制：降低发音错误与文本偏差情绪控制生成：支持 11 种情绪类别副语言控制：支持笑声、呼吸、哭泣、咳嗽等表达全开源数据处理流程：完整公开的数据清洗与标注管线
支持情绪类别：Happy、Sad、Fear、Angry、Surprise、Serious、Concern 等 11 种情绪表达。
支持副语言控制：LAUGH（笑声）、BREATH（呼吸）、CRY（哭泣）、COUGH（咳嗽）等。
技术亮点：基于 LLM 的语音生成架构全开源数据工程与处理流程Seed-TTS 测试集上达到 SOTA 级说话人相似度降低高质量 TTS 数据构建成本
应用场景：AI 数字人与虚拟主播有声书与播客生成游戏角色配音AI 情感语音交互视/频旁白与内容创作

页: [1]

偏爱技术社区-偏爱技术吧-源码-科学刀-我爱辅助-娱乐网-游戏源码's Archiver

PilotTTS：支持情绪控制的AI语音合成