元Facebook和Instagram的母公司,公布了其最新发展生成人工智能领域的演讲介绍的喉。
这人工智能模型在演讲一代展示功能,比如编辑、采样、琐碎,即使没有这些任务的具体培训。
通过上下文学习,音箱可以生产高质量的音频片段,同时保留原始记录的内容和风格。值得注意的是,这种多语种模型可以生成演说中六种不同的语言。
元的喉的各种功能
的多功能性的喉是通过其表现出来的各种各样的功能:
1。内容中语音合成喉咙:只有一两秒的音频样本,可以匹配样本的风格并生成相应的语音输出。
2。语言编辑和降噪喉咙:拥有了能够再现打断讲话片段受到噪音的影响或替换失言单词而不需要添加整个演讲。这个特性允许无缝音频编辑,类似于音频的橡皮擦。
3所示。跨语言风格转移:喉可以阅读段落文本的不同的语言,产生演讲所需的语言无论语言提供的样本。这个跨语言能力提供了潜在的自然讲不同语言的人之间的沟通。
4所示。不同的演讲抽样:在广泛的训练数据,会生成相似的演讲人们自然会说六种支持语言在真实场景中。
由于与滥用相关的潜在风险,模型和代码目前不向公众开放。然而,音频样本和研究论文详细模型的方法和成果共享。
读也:Neurable的新人工智能耳机可以解释大脑信号,帮助用户保持专注和高效
流匹配模型
的喉利用流匹配模型,代表元的最新突破non-autoregressive生成模型。这个进步允许的喉学习不同的语音数据而不需要广泛的标签,导致更广泛和更多样的训练数据集。
超过50000小时的演讲记录,记录从公共领域的有声读物,音箱是训练预测语音段基于上下文,使一代的演讲在现有的录音。
喉咙的功能,及其潜在影响的言语生成人工智能领域,马克元研究努力的一个重要里程碑。
通过分享他们的方法和结果,元鼓励研究团体建立负责任的人工智能发展他们的工作和贡献。
“喉是一个生成人工智能模型可以帮助与音频编辑、采样和样式。这种类型的技术可以在未来帮万博体育登录首页助创造者轻松编辑音频轨道,让视力受损的人能够听到消息从朋友写在他们的声音,并使人们能够说任何外国语言在自己的声音,“元在其声明中写道。
相关文章:人工智能安全:新的研究探索机器学习安全没有进行无数的试验