在过去的六个月里,一家公开的小型家谱数据库已经成为了解决悬案的重要信息来源。这个免费的线上工具叫做GEDmatch,它是一个测试祖先的服务网站,人们可以提交自己的DNA数据,然后寻找亲戚,这是AncestryDNA或23andMe的开放访问版本。
根据今天发表在《科学》杂志上的一篇报告,作者称,自四月份以来,调查人员已经利用GEDmatch在全美至少19个案例中识别受害人、凶手和失踪人口,其中很多案例已经有几十年未结。作者们预测在不远的将来,当基因谱系报告变得流行的时候,这样的工具可以用来找到在美国的几乎任何一个拥有欧洲血统的人。
GEDmatch仅仅拥有大约1百万人的基因数据。但是悬案调查人员一直在利用一个叫做远程家族搜索的基因组分析技术来开发数据库。这项技术能让研究员将一个人的DNA配对上其远房亲戚,比如第三代表亲。
以前的家族搜索技术只能匹配上近亲。与第三代表亲匹配的能力极大增加了与任何一个人有联系的人的数量。在美国,平均每个人拥有大约850个三代表亲(或者遗传距离与第三代表亲匹配的亲戚)。
很有可能的是,其中一个亲戚使用了基因族谱服务。超过1700万的人已经参与到了这些服务网站,这个数字在过去两年里增长迅速。AncestryDNA和23andMe拥有着大部分的顾客。
远房亲戚的基因匹配能让调查员非常快速地找到嫌疑人。在一个高度曝光的案子里,调查人员在今年早些时候利用GEDmatch确定了“金州杀手”(Golden State Killer)。他是一个连环强奸犯和凶手,在20世纪70到80年代让加利福尼亚陷入恐惧之中,但从来没有被抓住。
GEDmatch数据库收集了这些年保存下来的连环杀人案现场的基因数据。结果,凶手基因的某些片段与一个使用过GEDmatch的第三代表亲相关联上了。这样,调查员就可以通过利用家谱、人口调查和其他线索来缩小搜索范围。现年72岁的凶手Joseph James DeAngelo于四月被逮捕,并被指控包括强奸在内的13项特殊情况下的谋杀罪名。
但是,有多大可能性,任何一个罪犯都有亲戚在基于DNA的族谱数据库里呢?远程家族搜索技术又有多强大呢?另一家叫做MyHeritage的家族谱服务网站位于以色列奥尔耶胡达,来自该服务网站的研究人员与纽约哥伦比亚大学的合作者着手解答了这些问题,他们的研究结果发表在今天《科学》杂志上。
他们的结论是:如果仅2%的人将DNA提供给家谱网站,那么几乎99%的人将在那个服务数据库里找到一个亲戚、第三代或者更近的亲戚。所以,MyHeritage的首席技术官、同时也是今天这个报道的作者之一Yaniv Erlich说到,在不久的将来,一个犯下暴力罪行的人很有可能有亲戚在其中一个消费者数据库里。
为了进一步发展他们的预测,Erlich和他的同事们对MyHeritag的数据库中的128万人(大多为欧洲血统)进行了远程家族检索测试。通过使用一个来自欧洲血统个体DNA的数据库,大概有60%的检索找到了一个第三代或者更近的表亲。(作者关注欧洲血统是因为MyHeritage的大多数用户来自这一个血统。)
然后,研究人员们调查了在一个典型的初始名单中,在850个左右的个体中找到了其第三代表亲之后,识别一个嫌疑犯会有多困难。研究人员发现,通过查看犯罪地点,并通过年龄和性别进一步缩小范围,他们可以将这个名单减少到16到17个嫌疑人,这就是个可行的数字了。
做一个远程族谱研究并不是很难。Erlich 说“你需要知道你在做什么,但你不需要为此取得一个遗传学的博士学位。”对于悬案调差人员来说,更大的挑战是获得族谱数据库的访问权限。据作者所知,GEDmatch是唯一一个拥有非常自由的隐私政策的数据库,Erlich说:“你不仅可以看自己的结果,还可以看任何其他人的结果。”GEDmatch在它的隐私政策中明确指出,数据将会共享给其他用户。
其他的族谱网站服务并不容易获得。根据各州法规,执法部门通常必须得到法令才能在那些更私人的服务网站中进行族谱检索。MyHeritage的服务条款禁止没有本公司许可的法医研究或者犯罪调查。
这些数据库的访问权限受到法律保护是有充分理由的。族谱检索已知会有假阳性。并且,Erlich他本人在之前的研究中已经表明,使用族谱服务网站来识别参与基因研究的实验对象是可能的。
例如,自愿参加千人基因组计划的人们的基因组是公开的。某人可以轻易地下载其中一个参与者的基因信息,将其上传到GEDmatch 或者MyHeritage上,然后找到那个人的亲戚并且有可能识别出这个研究对象。(GEDmatch 和 MyHeritage都允许用户在他们的数据库运行在另一家公司测序的DNA)。
Erlich和他的同事提出一个保护研究对象的解决方案。他们说,DNA数据提供者(如,23andMe 和AncestryDNA)在客户签名加密的文件上添加一个标题。然后,当一个用户上传这个文件到GEDmatch时,服务器可以用这个签名来验证DNA数据是否来自合法实验室。Erlich说,如果这个文件没有签名,族谱网站应该询问这个数据是来自哪里,以及这个人在搜寻什么信息。
公司是否应该对犯罪调查员的检索要求拥有这样的慎重处理并不是很清楚。“每个人都会感到高兴如果警察能用这项技术抓到犯人,但是对于实施这些调查的警察的监管和制衡又是什么呢?” Erlich说,“对于警察在政治示威后使用这项技术来识别个人,我们觉得可以吗?”
确实,很多GEDmatch的案例都是由非执法部门发起的。其中包括一群自称为DNA Doe项目的研究员,他们的任务是利用基因族谱来识别出John和 Jane Does。Parabon Nanolabs是一家位于弗吉尼亚州的法医DNA公司,他们宣布已经建立了一个将使用到远程家族检索的部门。在五月,这家公司告诉BuzzFeed它已经向GEDmatch上传了大约100个案例。
今天发表在《科学》杂志上的这个报道中,包含了一个通过GEDmatch解决13个案例的非常吸引人的列表。Erlich还追踪到了另外6起在上个月被解决了的案例。
作者:Emily Waltz
翻译:万欣宇
审校:郭晓