微软公布了最新的文本到语音人工智能研究，VALL-E b|科技时报万博体育登录首页

4月Fowell，《万博体育登录首页科技时报》2023年1月10日上午8点01分

微软公布了其与VALL-E在文本到语音人工智能方面的最新研究，据Engadget报道。VALL-E可以仅从三秒的音频样本中模拟某人的声音。

它是如何工作的

据ARS Technica报道万博体育登录首页，演讲可以匹配声音的音色和说话者的情绪语调。此外，它还可以与房间的音响效果相匹配。

微软将VALL-E称为“神经编解码器语言模型”，该模型源自Meta的人工智能压缩神经网络编解码器，可以从文本输入和扬声器的短样本中生成音频。

VALL-E接受了来自Meta的LibriLight音频库的7,000多名英语使用者的60,000小时培训。试图模仿的声音应该与训练数据中的声音紧密匹配。然后，它将使用训练数据来推断说话者在说出所需文本输入时想要什么。

研究小组展示了这在VALL-E Github页面上的效果。对于他们想让AI说的每句话，说话者都有一个三秒钟的宣传片来模仿。然后，有一个“基本事实”，即同一说话者说另一个短语进行比较，最后，一个“基线”传统的文本到语音合成和最后的VALL-E样本。

研究小组得到了不同的结果，有些听起来像机器，而另一些听起来像真的。

微软计划通过扩大训练数据的规模来改进这个模型。他们还在研究如何减少不清楚或遗漏的单词。

代码不会是开源的，这可能是为了防止人工智能的风险，它可能会把话放在某人的嘴里。相反，他们将在模型的进一步开发中遵循“微软人工智能原则”。

val - e是否会在公开市场上发布，这将是一件有趣的事情。它可以用来生成定制的名人声音，或者模拟某个人的声音来为产品做广告。即使它没有发布，它也会提高文本到语音的人工智能的门槛，可能会导致类似siri的人工智能程序适合你的声音。

人工智能文本到语音(TTS)已经存在一段时间了。它也从这些类型的研究中得到了改进。此外，TTS在自然语言处理、语音接口和游戏开发等方面也有应用。随着演讲能力的提高，将会有更多的应用。

VALL-E是一种将语音片段转换为数字文本的人工智能。它在一个大型音频库中接受训练，从成千上万的声音中学习。研究小组发布了一段演示视频，展示了VALL-E的能力。目前还不清楚VALL-E是否会向公众发布。然而，这项研究必然会导致文本到语音和通用人工智能的大幅改进。

标签: 微软 vall-e 人工智能