qq2309931055 发表于 昨天 11:37

PilotTTS:支持情绪控制的AI语音合成

PilotTTS 是一款基于大语言模型(LLM)的文本转语音系统,采用“简化但高效”的架构设计,在完全开源组件基础上,通过高质量数据工程实现了接近业界顶级水平的语音生成效果。相比依赖复杂闭源流程的传统 TTS 系统,PilotTTS 更强调开放性、可控性与高质量训练数据构建。该系统不仅在说话人相似度与文本内容准确率方面表现出色,还支持丰富的情绪与副语言控制,使生成语音更加自然、生动且富有表现力。
下载地址:
https://pan.quark.cn/s/ba3d3423dc73
核心功能:高质量文本转语音(TTS):生成自然流畅的人声语音高相似度语音克隆:精准还原目标说话人音色内容一致性控制:降低发音错误与文本偏差情绪控制生成:支持 11 种情绪类别副语言控制:支持笑声、呼吸、哭泣、咳嗽等表达全开源数据处理流程:完整公开的数据清洗与标注管线
支持情绪类别:Happy、Sad、Fear、Angry、Surprise、Serious、Concern 等 11 种情绪表达。
支持副语言控制:LAUGH(笑声)、BREATH(呼吸)、CRY(哭泣)、COUGH(咳嗽)等。
技术亮点:基于 LLM 的语音生成架构全开源数据工程与处理流程Seed-TTS 测试集上达到 SOTA 级说话人相似度降低高质量 TTS 数据构建成本
应用场景:AI 数字人与虚拟主播有声书与播客生成游戏角色配音AI 情感语音交互视/频旁白与内容创作

页: [1]
查看完整版本: PilotTTS:支持情绪控制的AI语音合成