Sambert语音合成工具




Sambert语音合成 专业的语音定制模型软件
提供40分钟音频就可以训练出自己的声音。
人声训练方法
第一步:点击上传音频开始人声训练【至少需要20分钟的高质量录音数据,建议使用1~2小时的录音数据,更多的录音数据将有利于合成质量更高的模型。作者测试使用的是40分钟音频。上传文件为zip压缩包】
第二步:任务状态
任务状态:SUCCEEDED 代表训练成功 并可以使用。
任务状态:RUNNING代表正在训练。
任务状态:PENDING代表等待。
任务状态:UNDER_REVIEW代表等待人工审核。
第三步:操作修改、刷新、删除时要选中模型才能正常操作。
小提示1:上传人声训练录音要求
音频文件支持wav/mp3/m4a格式,采样率满足24~48kHZ,语音数据有效时长40分钟以上。
将音频数据压缩至zip包内(无目录限制要求),zip包文件<=300MB。录音应避免出现噪音、混响等问题。
小提示2:人声训练音频录制建议
1、混响控制:混响是声音经墙壁等反射产生的,录音场地要避免空旷或者很大的房间,可选择杂物比较多、摆放不规则的环境。
2、风格一致性:周期性的回放听测之前已录制的音频,尽量保持前后录音一致性,如音调、语速、情绪饱满度等。也可以请其他人协助监听,在风格不一致时发出提醒。
3、噪声控制:建议在室内进行,关闭会产生噪声的电器,如空调、风扇,避免录音时的肢体动作产生的摩擦声,尽量避免过于频繁的呼吸声和口腔噪声。
4、姿态控制:保持固定的身姿,控制与麦克风的距离不变,避免声音忽大忽小。
5、音频一致性:尽量保证一次完成所有录音,保持录音环境、录音质量的一致性。
小提示3:大模型常见问题
需要多少录音数据?
至少需要20分钟的高质量录音数据,建议使用1~2小时的录音数据,更多的录音数据将有利于合成质量更高的模型。
是否支持训练多个风格的模型?
当前不支持多风格模型训练,同时也不建议在一批录音数据中包含多种风格。如您需要训练多个风格的模型,可以按照风格区分为多个模型进行训练。
训练完的模型采样率是多少?
训练完的模型采样率统一是16KHz。
可以训练多少个模型?
每个主账号下,默认拥有10个模型训练的配额。如需扩充数量,可以删除不再使用的测试模型以恢复配额,或联系对接人获取额外配额。
模型训练是否会有升级?
是的。为了提升最终模型质量,我们会不定期优化基础模型与训练过程,并公布相关优化点,您可以持续关注最新公告,获取最新信息。基础模型或训练过程优化后,您可以选择重新训练生成新模型,或继续使用原模型。
模型调用如何收费?
https://help.aliyun.com/zh/dashscope/developer-reference/sambert-speech-synthesis-metered-billing?spm=a2c4g.11186623.0.i9
支持语言与试听?
https://help.aliyun.com/zh/dashscope/developer-reference/model-list-old-version?spm=a2c4g.11186623.0.0.75906c8aX7PAfG
模型训练如何收费?
Sambert轻量化声音克隆服务当前处于定向邀测期,邀测期间模型训练免费。