Sambert语音合成工具

声音克隆 AI自动播 发布时间:11-06 浏览:202 次

Sambert语音合成 专业的语音定制模型软件

提供40分钟音频就可以训练出自己的声音。

人声训练方法

第一步:点击上传音频开始人声训练【至少需要20分钟的高质量录音数据,建议使用1~2小时的录音数据,更多的录音数据将有利于合成质量更高的模型。作者测试使用的是40分钟音频。上传文件为zip压缩包】


第二步:任务状态

任务状态:SUCCEEDED 代表训练成功 并可以使用。

任务状态:RUNNING代表正在训练。

任务状态:PENDING代表等待。

任务状态:UNDER_REVIEW代表等待人工审核。


第三步:操作修改、刷新、删除时要选中模型才能正常操作。


小提示1:上传人声训练录音要求

音频文件支持wav/mp3/m4a格式,采样率满足24~48kHZ,语音数据有效时长40分钟以上。

将音频数据压缩至zip包内(无目录限制要求),zip包文件<=300MB。录音应避免出现噪音、混响等问题。

小提示2:人声训练音频录制建议

1、混响控制:混响是声音经墙壁等反射产生的,录音场地要避免空旷或者很大的房间,可选择杂物比较多、摆放不规则的环境。

2、风格一致性:周期性的回放听测之前已录制的音频,尽量保持前后录音一致性,如音调、语速、情绪饱满度等。也可以请其他人协助监听,在风格不一致时发出提醒。

3、噪声控制:建议在室内进行,关闭会产生噪声的电器,如空调、风扇,避免录音时的肢体动作产生的摩擦声,尽量避免过于频繁的呼吸声和口腔噪声。

4、姿态控制:保持固定的身姿,控制与麦克风的距离不变,避免声音忽大忽小。

5、音频一致性:尽量保证一次完成所有录音,保持录音环境、录音质量的一致性。

小提示3:大模型常见问题

需要多少录音数据?

至少需要20分钟的高质量录音数据,建议使用1~2小时的录音数据,更多的录音数据将有利于合成质量更高的模型。

是否支持训练多个风格的模型?

当前不支持多风格模型训练,同时也不建议在一批录音数据中包含多种风格。如您需要训练多个风格的模型,可以按照风格区分为多个模型进行训练。

训练完的模型采样率是多少?

训练完的模型采样率统一是16KHz。

可以训练多少个模型?

每个主账号下,默认拥有10个模型训练的配额。如需扩充数量,可以删除不再使用的测试模型以恢复配额,或联系对接人获取额外配额。

模型训练是否会有升级?

是的。为了提升最终模型质量,我们会不定期优化基础模型与训练过程,并公布相关优化点,您可以持续关注最新公告,获取最新信息。基础模型或训练过程优化后,您可以选择重新训练生成新模型,或继续使用原模型。

模型调用如何收费?

https://help.aliyun.com/zh/dashscope/developer-reference/sambert-speech-synthesis-metered-billing?spm=a2c4g.11186623.0.i9

支持语言与试听?

https://help.aliyun.com/zh/dashscope/developer-reference/model-list-old-version?spm=a2c4g.11186623.0.0.75906c8aX7PAfG

模型训练如何收费?

Sambert轻量化声音克隆服务当前处于定向邀测期,邀测期间模型训练免费。


免费通话

24h咨询:400-663-6698


如您有问题,可以咨询我们的24H咨询电话!

免费通话

微信扫一扫

微信号:kuhubigdata

微信联系
返回顶部