研究显示 匿名数据可能不那么匿名

2019-07-28 14:37:20

去识别数据是现代营销和科学研究的基石。

利用机器学习,研究人员估计了可以从匿名数据中重新识别特定人的可能性。

研究表明,几乎所有美国人都可以根据15个人口统计特征进行重新识别。

研究:99%的美国人可以从匿名数据中重新识别

我们都做到了:在线注册帐户时,我们点击“我同意”将我们的数据出售给第三方。它将是匿名的,我们保证,只有一小部分数据可供其他人使用。

但是,我们的个人数据无法追溯到我们,这有多安全?这是比利时Universitécatholiquede Louvain和伦敦帝国理工学院的一个研究小组试图回答的核心问题。

结论是 - “不是很好”。

利用机器学习,研究人员开发了一个系统来估计从包含人口统计特征的匿名数据集中重新识别特定人的可能性。研究人员的模型表明,超过99%的美国人可以使用15个人口统计特征从任何数据集中正确地重新识别,包括年龄,性别和婚姻状况。

“虽然可能有很多人在三十多岁,男性和居住在纽约市,但是他们在1月5日出生的人中,他们驾驶的是一辆红色跑车,还有两个孩子(两个女孩)和一只狗,“Lucvher说,他是鲁汶天主教大学的博士候选人,也是该研究的主要作者。正如CNBC先前报道的那样,个人数据可用于研究,非法活动甚至投资。

他们的论文“估计使用生成模型在不完整数据集中重新识别的成功”发表在Nature Communications杂志上。他们的研究结果表明,常用的匿名工具,如添加噪音和抽样数据,可能不足以跟上欧盟GDPR和加州消费者隐私法等亲数据隐私法。

研究人员写道,结果“质疑当前的去识别实践是否满足现代数据保护法的匿名化标准,如GDPR和CCPA。”

作为他们研究的一部分,三人组合发布了一个在线工具,帮助人们了解重新识别它们的可能性,仅基于三个常见的人口统计特征:性别,出生日期和邮政编码。研究人员说,平均而言,根据这三个数据点,人们有83%的机会被重新识别。

“匿名化的目标是让我们可以利用数据造福社会,”研究人员之一Yves-Alexandre de Montjoye说。“这非常重要,但不应该而且不必以牺牲人们的隐私为代价。”