研究人员使用机器学习方法来提高布隆过滤器对社交媒体虚假新闻检测|科技时代万博体育登录首页

CJ罗伯斯,科万博体育登录首页技时代2020年12月14日,身子

有这么多错误信息传播在社会媒体,莱斯大学Shrivastava Anshumali计算机科学家领导的研究人员开发了一种使用机器学习方法(ML),防止错误信息的传播网络。

这新方法由Shrivastava和他的团队在2020年的会议上提出了神经信息处理系统(NeurIPS 2020),在网上举行。他们提高了50年的旧布隆过滤器技术扫描社交媒体帮助社交媒体网络公司预防虚假新闻的传播平万博体育登录首页台。

布鲁姆过滤器是什么?

布隆过滤器是一种数据结构用来测试是否一个特定的元素是一组的一个成员。空间概率数据结构。

然而,进一步理解布鲁姆过滤器,根据极客的极客,我们首先必须知道哈希。一个哈希函数提供了固定长度的惟一标识符用于识别的输入。

与标准的散列相比,布隆过滤器可以体现一组大量的元素。在添加一个元素从不失败,让假阳性率稳步增加,直到所有元素部分包含在所有查询的过滤器设置为1给出一个积极的结果。他们也不会产生假阴性的结果。与此同时,从过滤删除元素是不允许的,因为它可能会导致删除其他元素。

研究指出,包括机器学习二元分类器提高布鲁姆过滤器的性能。研究者提出新的算法,给出降低假阳性率高达50%(玻璃钢)和内存使用小于现有的布隆过滤器的方法。

读也:谷歌信息端到端加密指南:如何在Android上工作

研究人员使用机器学习方法对假新闻检测

Shrivastava和他的团队测试数据库使用的假新闻故事和计算机病毒检查他们的技术的效率。万博体育登录首页Shrivastava统计研究生振威戴辅助实现类似的性能水平学习布鲁姆过滤器通过创建自适应学习布隆过滤器(Ada-BF)。Shrivastava告诉每日科学Ada-BF所需内存少50%,允许处理两倍信息使用相同的资源。

Shrivastava和戴解释说他们使用一些Twitter数据过滤方法。根据Twitter,大约5亿条推讯每天发送,通常发表后一秒用户按下发送。然而,在选举Twitter收到每秒大约10000条推讯,相当于每毫秒的6条信息,考虑一秒钟的延迟。

“如果你想应用一个过滤器,它读取每条tweet和标志的信息是假的,你的萎靡不振的机制不能低于6毫秒或你会落后,从来没有赶上,”Shrivastava告知自由媒体杂志。

研究人员注意到,同样重要的是要有一个假阳性率低时标记微博发送另一个手动审查和通常最小化错误地标记的真正的tweet。

“如果你的假阳性率低至0.1%,即便如此你错误地萎靡不振的每秒10条,或每天超过800000人,为手动审查,“说Shrivastava这是大多数“AI-only方法是禁止”的原因调节假新闻。

尽管Twitter并没有透露如何过滤器tweet,研究人员认为社交媒体巨头使用布隆过滤器,这是发达国家在1970年。布隆过滤器可以找到所有代码匹配的数据库,但也产生一些假阳性结果。

Shrivastava指出,研究人员已经提出了各种方法使用机器学习来改进自2017年以来布鲁姆过滤器的效率。

这是属于科技时代万博体育登录首页

写的CJ罗伯斯