一群社会科学研究人员基本上强力霉素70000网站用户,倾销大规模数据集包括从用户名到答案可能是非常私人的问题。这个版本可能已经超过了它包括线的细节,但该组织的方法,所谓的“数据抓取,”并不少见。
它是由许多隐私倡导者,被称为不道德和集团的行动不是由OkCupid批准。
尽管如此,有近70000人发表了他们的回答这样的问题“你的父母丑吗?”和“你有没有可能考虑削减合伙人(他自找的)性玩吗?”
OkCupid是什么,到底发生了什么
网站和它的应用程序“用数学来帮助你找到日期,OkCupid在其网站上宣布。数学依赖于用户数据包括身高、年龄、教育、收入、种族、恶习和问题的答案意味着评估兼容性。
访问这些信息,容易发现用户的概要文件,仅限于OkCupid的用户。虽然OkCupid可能喜欢对所有的用户在陪伴,埃米尔科克加德,奥尔胡斯大学硕士学生,和他的同事去那里寻求收集数据。
“自2014年底以来我们一直在刮数据(从)OkCupid,目前有一个数据库的70000用户和他们的大约2000个问题的答案以及人口统计信息,目前未发表的,”说科克加德。
数据挖掘从网站2014年11月至2015年3月使用刮板,一个自动化工具,编程寻找配置文件是基于用户回答的问题。
小组写了一篇论文在观察他们的报废数据,他们发表的所有在线开放科学框架。在本文中,作者测试假说,认为认知能力对宗教和宗教有负面影响对政治产生积极的影响。
“这是一个明显违反我们的服务条款和计算机欺诈和滥用行为和我们正在探索法律选择,”一位OkCupid的发言人告诉DailyMail.com。
道德或不道德的
卡内基梅隆大学的斯科特•b . Weingart数字人文学科专家,OkCupid的主题上推刮声称他可以,几乎90%的准确率,连真实姓名屏幕名称基于性取向和历史。
这是一个违反一个合理的期望隐私,但目前还不清楚如果OkCupid及其用户有任何法律追索权。信息,其中一些可能是敏感的,是半公开的平台共享。
合法还是非法,艾米丽Gorcenski,软件工程师,断言在一篇博客文章中,该集团的抓取和数据倾销是“根本违反科研伦理”。
“人类被试的研究也必须满足善行的指导方针和平衡:研究者必须不伤害,研究必须回答一个合法的问题,和研究必须有利于社会,“写了Gorcenski,谁说她NIH认证在人体研究。
Gorcenski也质疑方法的团队使用纸和研究假设测试。她还指出,利益冲突在《华尔街日报》的同行评审过程。
“这有一个戏剧性的恶臭试图找到匹配的数据集形成的结论;在这种情况下,它闻起来很像典型的修辞的一个特定的无神论者政治,”Gorcenski写道。”一位作者的评论出卖任何的独立在这方面意识。”
看起来像一个相当清楚的公共SJW之间的种族主义。https://t.co/4URwz6STPlpic.twitter.com/q84M64EVao
-埃米尔噢科克加德(@KirkegaardEmil)2016年5月15日
刮刀
OkCupid修改了其网站,所以科克加德和公司使用的代码不工作而不被修改。但这里的教训是避免发布的东西,绝不是公开的信息。
已经有其他数据抓取努力推出针对OkCupid和无数的其他网站。只是这一最新事件表示关注,因为研究者的决定大胆分享这样一个大型缓存的个人数据。
数据整理的一种机器人,用来使重复的任务自动化的软件工具。将近一半的互联网由机器人,根据最近的一项研究从设备地图集。