微软公布了其与VALL-E在文本到语音人工智能方面的最新研究,据Engadget报道。VALL-E可以仅从三秒的音频样本中模拟某人的声音。

拉斯维加斯举办年度消费电子展
(图片来源:David Becker/Getty Images)
2023年1月6日,微软公司的展台标牌在拉斯维加斯会展中心展出。

它是如何工作的

据ARS Technica报道万博体育登录首页,演讲可以匹配声音的音色和说话者的情绪语调。此外,它还可以与房间的音响效果相匹配。

微软将VALL-E称为“神经编解码器语言模型”,该模型源自Meta的人工智能压缩神经网络编解码器,可以从文本输入和扬声器的短样本中生成音频。

VALL-E接受了来自Meta的LibriLight音频库的7,000多名英语使用者的60,000小时培训。试图模仿的声音应该与训练数据中的声音紧密匹配。然后,它将使用训练数据来推断说话者在说出所需文本输入时想要什么。

研究小组展示了这在VALL-E Github页面上的效果。对于他们想让AI说的每句话,说话者都有一个三秒钟的宣传片来模仿。然后,有一个“基本事实”,即同一说话者说另一个短语进行比较,最后,一个“基线”传统的文本到语音合成和最后的VALL-E样本。

研究小组得到了不同的结果,有些听起来像机器,而另一些听起来像真的。

还读:微软翻译器为iOS和Android添加地区口音你知道它会改变声音吗:女性变成男性,反之亦然

模型的改进

微软计划通过扩大训练数据的规模来改进这个模型。他们还在研究如何减少不清楚或遗漏的单词。

代码不会是开源的,这可能是为了防止人工智能的风险,它可能会把话放在某人的嘴里。相反,他们将在模型的进一步开发中遵循“微软人工智能原则”。

val - e是否会在公开市场上发布,这将是一件有趣的事情。它可以用来生成定制的名人声音,或者模拟某个人的声音来为产品做广告。即使它没有发布,它也会提高文本到语音的人工智能的门槛,可能会导致类似siri的人工智能程序适合你的声音。

人工智能文本到语音(TTS)已经存在一段时间了。它也从这些类型的研究中得到了改进。此外,TTS在自然语言处理、语音接口和游戏开发等方面也有应用。随着演讲能力的提高,将会有更多的应用。

VALL-E是一种将语音片段转换为数字文本的人工智能。它在一个大型音频库中接受训练,从成千上万的声音中学习。研究小组发布了一段演示视频,展示了VALL-E的能力。目前还不清楚VALL-E是否会向公众发布。然而,这项研究必然会导致文本到语音和通用人工智能的大幅改进。

相关文章:微软Edge带来了语音输入支持,Windows 11上的MS编辑器

4月Fowell
TECHTIM万博体育登录首页ES.com版权所有未经允许,请勿转载。