Facebook的老板,Instagram, WhatsApp,元属性描述其最新发布了一本190页的作品努力时,机器翻译。虽然是翻译的202种语言,其中有几个翻译机器真的挣扎。
元的多语言翻译机与以下语言特别是斗争
根据这个故事ZDnet,op描述了最先进的机器翻译能够学习不同的语言,被认为是“低资源”的语言。作品描述了公司的最新举措较低的机器学习的语言资源。
语言被认为是“低资源”是以下几点:
中西部奥罗莫语,口语Oromia埃塞俄比亚的状态
Tamasheq——口语北部非洲的一些地区,甚至在阿尔及利亚
Waray Waray人——说的菲律宾
翻译机的目的是增加语言的数量可以支持到200年
这份报告来自元人员是上传到Facebook人工智能的研究网站。这项研究也带来了博客提供更全面的信息,以便更好地理解元在做什么。
写在他们的使命声明中“广泛访问机器翻译系统”是能够支持130种语言,他们的目标是增加,一直到200年。
元将200美元奖:外面那些决定使用他们的技术万博体育登录首页
ZDNet报道,元仍然是开源的数据集以及神经网络模型代码GitHub。他们也提供一个巨大的200000美元奖:外面那些决定使用他们的技术。万博体育登录首页
该公司还与业主的维基百科,维基媒体基金会,为了提供一个更好的翻译的维基百科文章。ZDNet指出元使用自动化的方法来编译的数据集不同的双语句对他们所有的目标语言。
共有180亿个句子对其中一些有资源缺乏方向
集包括一些有趣的统计数据包括事实1220语言对总共约有2440方向进行训练。2440方向等于超过180亿总句子成对和大多数对有少于一百万句子和被认为是资源缺乏方向。
据报道,作者使用数据能够训练NLLB神经网络以及使用一组特定的手工数据的交易预计将由翻译人员。
读也:Netflix继续与市场份额的萎缩,失去用户!Amazon Prime视频背后的1% ?
元在希腊、亚美尼亚和奥罗莫人成对语言
整个人类的元素称为NLLB-SEED数据集是相当重要的。写“尽管相当大型的公开训练数据,训练NLLB-Seed导致显著更高的平均性能。”
元并不是唯一一个试图咀嚼这些巨大的数据集作为谷歌的科学家也会推出类似的时候多语言工作。研究了低的结果当试图学习希腊语,亚美尼亚,奥罗莫语和其他语言。
相关文章:Elon Musk:拜登管理“令人不安的”要求审查在Facebook上,社交媒体
这篇文章是由科技时代万博体育登录首页
写的尿色素B。