天天共享!共享DNA数据或泄露个人隐私

科技工作者之家 2017-09-12

编者按:共享单车、共享电车、共享汽车,当DNA数据也伴着共享浪潮袭来。人类的隐私又该当如何?

一股批评的浪潮席卷了基因组测序的先驱者雷格•文特尔发表的一篇论文,该论文声称能从DNA数据中预测人们的生理特征。审稿人,甚至文章的共同作者却表示说,论文夸大了使用一个人的基因识别个人的能力,这可能会引起对基因隐私问题不必要的恐慌。

在9月5日发表于美国国家科学院院报(PNAS)的论文中,来自位于加利福尼亚州圣地亚哥的人类寿命公司(Human Longevity,Inc.,HLI)的文特尔(Venter)和同事们一道,对1061位来自不同年龄阶段和种族背景的人的全部基因组进行了测序。借助遗传数据和受试者脸部的高质量3D照片,研究人员利用人工智能来寻找与类似脸颊骨一类面部特征相关的DNA序列中的微小差异(被称为SNP,单核苷酸多态性)。该小组同时还搜索了与包括人的身高、体重、年龄、嗓音特征和皮肤颜色等因素相关的SNP。

天天共享!共享DNA数据或泄露个人隐私

该方法能以74%的准确率从HLI数据库随机选出的十人当中识别出正确的那个人。研究结果显示,处理人类基因组的执法机构、科学家和其他人员应该保护基因数据,防止个人隐私仅凭借DNA就被识别出来。HLI在一份声明中表示:“HLI的研究人员的一个核心理念就是,现在能够公开访问的数据库没有真正做到去识别化,因此不能保护个人隐私。”

有争议的断言

但是,其他基因学家在研究阅读该文章后认为,这个说法被大大的夸大了。宾夕法尼亚州立大学的人类学家马克·施里弗(Mark Shriver)说:“我不认同文章提出的这些风险,因为他们不能证明仅仅借助DNA就能找出一个人。”

他说,在被随机选择出的10人中进行选择,加上数据来源还是类似HLI这种规模不大、多样性有限的数据库,单单借助性别和种族就能排除掉大多数人。

为了证明这一点,纽约哥伦比亚大学的计算生物学家亚尼夫·艾丽希(Yaniv Erlich)研究了HLI文章中的年龄、性别和种族数据。在于9月6日发表在bioRxiv预印本服务器上的一篇研究中,他计算出,仅凭借这三个特征就足够以75%的准确率识别出从HLI数据库选出的十人当中的正确的那个人。艾丽希认为,根本就没必要了解人们的基因组就能做到这点。此外,他还表示,HLI对SNP引导的面部结构重建并不具有高度特定性——他们倾向于把个体单纯视作相同性别和种族中的任意一个人。

在论文发表于PNAS之前,该论文曾被提交给《科学》杂志。《科学》杂志此前的审稿人施赖弗表示,HLI的实际数据是可靠的,他对该组借助对会随着时间的推移而缩短的染色体末端进行测序来确定年龄的新颖方法也印象颇深。但是,这篇文章不能证明它所声称的能通过DNA识别一个人这一断言。他说:“我认为它完全错误的阐述了他们所进行的工作和得到的发现。”

HLI表示,它的论文指出,在分析超过1000个基因组的数据库的基础上,使用多个特征(人脸就是其中一只)有可能找出一个人。HLI发言人希特尔·尔科瓦尔斯基(Heather Kowalski)还认为“并且预测会变得越来越准确。”HLI表示,预测是就方法论而言的,但也承认数据规模很小。该公司补充说“团队正在努力对亚尼夫在BioRxiv上提出的批评进行反驳。”

施赖弗说,他和艾丽希都在《科学》杂志的审稿意见中提出了对研究作者的关切,并指出《科学》最终拒绝刊发这篇文章(《科学》杂志不对未被其发表的研究进行评论)。之后,论文被转而提交给PNAS,PNAS允许类似文特尔这样的美国国立科学,工程和医学学院的成员自主选择审稿人。三个审稿人中两个是信息隐私专家,另外一个是生物伦理学家。

PNAS证实,文特尔确实选择了这三位作为他们研究的审稿人。HLI拒绝对PNAS的同行审议过程发表评论。

隐私问题

现在在新加坡苹果公司工作的计算生物学家,同时也是本文共同作者的杰森·派珀(Jason Piper)同意说该论文歪曲了他和其他共同作者的发现。派珀补充表示,他在与公司的合同中放弃了在提交论文前对稿件进行批准的权利,允许HLI将他的数据以任何看上去合适的方式进行诠释。HLI对此的回应是,确认表示“作者被给予了对论文进行审查和评论的机会。”

派珀此前在推特上批评了这篇论文,表示HLI是鼓励限制访问DNA数据库的利益相关者。公HLI是商业公司,如今正试图建立世界上最大的人类遗传信息数据库。

天天共享!共享DNA数据或泄露个人隐私

“我认为遗传隐私是非常重要的,但(LHI建议)采取的途径是错误的,”派珀说,“为了能从基因组中获得更多的信息,分享必不可少。”更有效的途径是找出一种在能公开基因组数据的同时避免个人被认出的方法。

针对该文章的批评,HLI公司以一项声明作为回应,表示“HLI支持对基因组数据进行保护,并促进现代数据交换解决方案的实施。”他们补充说,本文旨在激发关于共享遗传信息的同时保护个人隐私问题的讨论。

尽管如此,艾丽希仍担心文特尔的数据在政策制定者的眼中被给予额外的重视,导致他们过分忧虑DNA隐私。他说:“新的规章制度就是基于这类论文产生的,当我们处理隐私风险时,搞对事实是很重要的。”

来源:创新地标


数据库

推荐资讯