上传一个持续3到10秒的语音作为音频提示,并键入您想要合成的文本。
模型将用您的音频提示相同的声音合成给定文本的语音。
该模型还倾向于保留您给定语音的情感和声学环境。
作者:小皮日期:2023-11-18浏览:65分类:技术学习
VALL-E X可以通过仅使用未曾见过的说话者的3秒录音作为声学提示,合成高质量的个性化语音,即使是对于一位母语讲者,也可以在另一种语言中执行。此实现支持三种语言(英语、中文、日语)的零尝试、单语/跨语言文本到语音功能。
上传一个持续3到10秒的语音作为音频提示,并键入您想要合成的文本。
模型将用您的音频提示相同的声音合成给定文本的语音。
该模型还倾向于保留您给定语音的情感和声学环境。
Copyright© 小皮资源网 ,使用“双翼鸟”服务器推荐
本站资源均从互联网上收集,仅供学习和交流使用;请遵循相关法律法规;
本站一切资源不代表本站立场,如有侵权、后门、不妥,请联系删除,敬请谅解!联系方式E-mail:2011580215@qq.com
关于我们|
广告合作 |
我要投稿 |
免责声明 |
XML地图
暂无评论,来添加一个吧。