-
- 开源AI文本转语音tts声音克隆 gpt-sovitsGPT-SoVITS 是一款开源的少样本语音克隆和文本转语音(TTS)工具,结合了深度学习和声学技术,能够实现高质量的语音合成。它支持多种语言的语音推理,包括中文、英语、日语、韩语和粤语。
请按 Ctrl+D 收藏本页到浏览器收藏夹回家不迷路!
GPT-SoVITS 是一款开源的少样本语音克隆和文本转语音(TTS)工具,结合了深度学习和声学技术,能够实现高质量的语音合成。它支持多种语言的语音推理,包括中文、英语、日语、韩语和粤语。该工具特别适用于需要快速生成特定人声的场景,可以帮助用户在没有或只有少量目标说话人语音样本的情况下,训练出能够模仿该说话人声音(包括情感、音色、语速)的模型。
核心功能
- 零样本文本转语音(Zero-shot TTS):
- 仅需输入5秒的语音样本,即可实现即时的文本转语音。
- 少样本文本转语音(Few-shot TTS):
- 通过1分钟的训练数据进行微调,可显著提高语音相似度和真实感。
- 跨语言支持:
- 支持跨语言推理,用户可以用一种语言的录音生成另一种语言的语音。
- WebUI工具:
- 提供了声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注等功能,帮助用户创建训练数据集。
技术优势
- 少样本学习:仅需少量语音样本即可生成高质量的声音克隆。
- 高频优化:针对网络音频中常见的高频缺失问题进行了优化。
- 多语言支持:支持多种语言的语音推理。
- 用户友好:提供WebUI工具,简化了训练数据集的创建过程。
适用场景
- 个性化语音助手:用户可以轻松打造个性化的语音助手。
- 游戏角色配音:通过少量配音样本生成符合角色设定的声音。
- 有声读物制作:将文字内容转化为自然流畅的语音输出。
- 无障碍服务:为视力障碍人士提供熟悉的声音播报。
- 广告配音与营销:生成名人或特定角色的声音来配音广告。
安装使用
- Windows:直接下载集成包,双击
go-webui.bat
即可启动。
- Linux:通过
conda
创建虚拟环境并运行安装脚本。
- macOS:通过CPU运行,需要安装Xcode命令行工具和FFmpeg。
- Docker:支持通过
docker-compose.yaml
配置运行。
官网入口
特别声明&浏览提醒
本网站提供的「 gpt-sovits」相关内容均来源于网络搜集整理,不保证跳转外部链接的准确性和完整性。网站外部链接的内容在[2025-04-17]录入之前合规合法,后期网站的内容如出现违规或者损害了您的利益,可以直接联系网站管理员进行删除。如果涉及到金钱交易,请仔细甄别,避免上当受骗!