平台能力
文本转语音模型
1. 使用场景
文本转语音模型(TTS)是一种将文本信息转换为语音输出的 AI 模型。该模型将输入文本内容生成自然流畅、富有表现力的语音,适用于多种应用场景:
- 为博客文章提供音频朗读
- 生成多语言语音内容
- 支持实时流媒体音频输出
2. API 使用指南
- 端点:/audio/speech,具体使用可参考api文档
- 主要请求参数:
-
model:用于语音合成的模型(如 fishaudio/fish-speech-1.5)。
-
input:待转换为音频的文本内容。
-
speed:可以控制音频速度,float类型,默认值是1.0,可选范围是[0.25,4.0];
-
gain:音频增益,单位dB,可以控制音频声音大小,float类型,默认值是0.0,可选范围是[-10,10];
-
sample_rate:可以控制输出采样率,对于不同的视频输出类型,默认值和可取值范围均不同,具体如下:
- opus: 目前只支持48000hz
- wav, pcm: 支持 (8000, 16000, 24000, 32000, 44100), 默认44100
- mp3: 支持(32000, 44100), 默认44100
-
2.1 系统预置音色:
目前系统预置了如下 8 种音色:
-
男生音色:
-
女生音色:
在线试听上述音频。
在请求中使用系统预置音色。
2.2 用户预置音色:
注意:使用用户预置音色,需要进行实名认证。
2.2.1 通过 base64
编码格式上传用户预置音色
上述接口返回的 uri
字段,即为自定义音色的 ID,用户可以将其作为后续的 voice
参数中,进行请求。
在请求中使用用户预置音色。
2.2.2 通过文件上传用户预置音色
上述接口返回的 uri
字段,即为自定义音色的 ID,用户可以将其作为后续的 voice
参数中,进行请求。
在请求中使用用户预置音色。
2.3 获取用户动态音色列表
上述接口返回的 uri
字段,即为自定义音色的 ID,用户可以将其作为后续的 voice
参数中,进行请求。
在请求中使用用户预置音色。
2.4 使用用户动态音色
注意:使用用户预置音色,需要进行实名认证。
在请求中使用用户动态音色。
2.5 删除用户动态音色
上述接口请求参数中的 uri
字段,即为自定义音色的 ID。
3. 支持模型列表
目前支持 fishaudio 模型,更多模型正在开发中。
注意:支持的 TTS 模型可能发生调整,请在「模型广场」筛选“语音”标签 获得当前支持的模型列表。
3.1 fishaudio/fish-speech 系列模型
注意:当前的 fishaudio/fish-speech 系列模型仅支持使用充值余额进行支付。在使用前,请确保账户充值余额充足。
- fish-speech-1.5 支持语言:中文、英语、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语
- fish-speech-1.4 支持语言:中文、英语、日语、德语、法语、西班牙语、韩语、阿拉伯语
- 计费方式:按照百万 UTF-8 字节 进行计费,实时价格参看模型广场
3.2 RVC-Boss/GPT-SoVITS 系列模型
- 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
- 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语、韩语、粤语和中文。
4. 参考音频的最佳实践
提供参考音频的高质量样本可以提升语音克隆效果。
4.1 音频质量指南
- 仅限单一说话人
- 稳定的音量、音调和情绪
- 简短的停顿(建议 0.5 秒)
- 理想情况:无背景噪音、专业录音质量、无房间回声
4.2 文件格式
- 支持格式:mp3, wav, pcm, opus
- 推荐使用 192kbps 以上的 mp3 以避免质量损失
- 未压缩格式(例如 WAV)提供的额外优势有限