差别隐私

科技工作者之家 2020-11-17

差别隐私(英语:differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。

动机设想一个受信任的机构持有涉及众多人的敏感个人信息(例如医疗记录、观看记录或电子邮件统计)的数据集,但想提供一个全局性的统计数据。这样的系统被称为统计数据库。但是,提供有关数据的综合性统计也可能揭示一些涉及个人的信息。事实上,当研究人员链接两个或多个分别无害化处理的数据库来识别个人信息时,各种公共记录匿名化的特殊方法都失效了。而差别隐私就是为防护这类统计数据库脱匿名技术而形成的一个隐私框架。1

Netflix奖举例来说,2006年10月,Netflix提出一笔100万美元的奖金,作为将其推荐系统改进达10%的奖励。Netflix还发布了一个训练数据集供竞选开发者训练其系统。在发布此数据集时,Netflix提供了免责声明:为保护客户的隐私,可识别单个客户的所有个人信息已被删除,并且所有客户ID已用随机分配的ID [sic]替代。

Netflix不是网络上唯一的电影评级门户网站,其他网站还有很多,包括IMDb。个人可以在IMDb上注册和评价电影,并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan和Vitaly Shmatikov将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)相连,能够部分反匿名化Netflix的训练数据库,危及到部分用户的身份信息。1

医疗数据库事件卡内基梅隆大学的Latanya Sweeney的将匿名化的GIC数据库(包含每位患者的出生日期、性别和邮政编码)与选民登记记录相连后,可以找出马萨诸塞州州长的病历。1

元数据与流动数据库MIT的De Montjoye等人引入了单一性(意为独特性)概念,显示出4个时空点、近似地点和时间就足以唯一性识别一个150万人流动数据库中的95%用户。该研究进一步表明,即使数据集的分辨率较低,这些约束仍然存在,即粗糙或模糊的流动数据集和元数据也只提供很少的匿名性。1

简介差别隐私是隐私损失的数学定义,当私人信息用于创建数据产品时,会导致个人隐私损失。这个词是由Cynthia Dwork在2006年创造的但正确的参考实际上是Dwork,Frank McSherry,Kobbi Nissim和Adam D. Smith的早期出版物。这项工作部分基于Nissim和Irit Dinur的工作这表明如果不透露一定数量的私人信息就不可能从私人统计数据库发布信息,并且可以通过发布令人惊讶的少量查询结果来揭示整个数据库。

Dinur和Nissim的“数据库重建”工作的结果是认识到使用隐私的语义定义(主要是在20世纪70年代对Tore Dalenius的工作进行约会)为统计数据库提供隐私的方法是不可能的,而且限制将私人数据纳入统计数据库需要制定的隐私风险增加。工作和后续研究的结果是技术的发展使得在许多情况下从数据库提供非常准确的统计数据同时仍然确保高度的隐私。2

在实际应用程序中采用差别隐私实践中差分隐私的几种用途是迄今已知的:

美国人口普查局,显示通勤模式。

谷歌的RAPPOR,用于遥测诸如学习有害软件劫持用户设置(RAPPOR的开源实现)的统计数据。

Google,分享历史流量统计信息。

2016年6月13日,苹果宣布打算在iOS 10中使用差异隐私来改进其智能帮助和建议技术。

在数据挖掘模型中,差分隐私的实际实现已经进行了一些初步研究。2

本词条内容贡献者为:

宋春霖 - 副教授 - 江南大学

科技工作者之家

科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。