机器学习模型,常用来决定违反规则,未能复制人类的判断,根据研究人员进行的一项研究麻省理工学院和其他机构。
这项研究发现,当没有训练正确的数据,这些模型往往会做出不同,通常比人类更严厉的判决。
的关键问题
关键问题在于数据用于训练机器学习模型。通常,数据标签是描述性的,人类是要求识别事实特征。
例如,在判断是否一顿饭的情况下违反了学校的政策,禁止油炸食品,人类被要求确定油炸食品在照片的存在。
然而,当这些描述性模型判断违反规则的行为,他们倾向于软件开发这样的侵犯。
这个精度下降的影响是显著的。例如,假设一个描述性的模型是用来评估个人犯下另一个进攻的概率。在这种情况下,研究表明,实施更严格的判断可能会比人类做的。因此,这可能导致高架保释金额或长句子的罪犯。
根据Marzyeh Ghassemi,助理教授和健康毫升集团在麻省理工学院的计算机科学与人工智能实验室(权力),这些模型不能复制人类偏见的判断由于训练数据本身是有缺陷的。
如果有更多的人意识到他们的标签将被用于判断,他们将标签不同的图像和文本。这对机器学习系统集成到人类有重大影响的过程。
标签的差异
研究小组进行用户研究探讨标记差异描述性和规范性标签。他们收集四个数据集来模拟不同的政策,要求参与者提供描述性或规范的标签。
结果表明,人类可能标签对象违反的描述性的设置。差距违反着装范围从8%到20%的狗图片。
进一步探索使用描述性的数据的影响,研究人员训练两个模式中,使用描述性的数据和其他使用规范的数据来判断违反规则的行为。
使用描述性的数据检验表明,该模型训练有效地执行低于训练使用规范的数据模型。
描述性模型演示了一个更大的趋势分类输入不准确预测违反规则的行为。此外,其准确性显著降低分类对象时,生成人类贴标签机之间的分歧。
数据集的透明度
数据集来解决这个问题,必须提高透明度,使研究人员能够正确地理解数据收集过程和利用它们。
另一个解决方案是微调叙述地训练模型的一小部分规范数据,称为转移的技术学习。万博体育登录首页
研究人员打算在将来的研究中这种方法进行调查。此外,他们已经计划进行类似的研究涉及专家贴标签机检查标签的存在差异。
Ghassemi强调需要透明度承认机器学习模型的局限性。
她所述”,解决这个问题的方法是透明地承认,如果我们想重现人类的判断,我们必须只使用收集的数据,设置。否则,我们将最终的系统将会有非常严厉的节制,比人类要做什么严厉得多。人类会看到细微差别或使另一个区别,然而这些模型没有。”
这项研究是发表在《科学》杂志上的进步。
相关文章:生物钟的问题?新机器学习可以改善睡眠