作者:Ewen Callaway
执法的触角可以伸到我们的DNA里。
今天发表的两篇论文显示,使得今年臭名昭著的金州杀手案中一名嫌疑人被捕的基因侦查技术将变得更加强大。
研究得出的结论是,人们很快就可以通过犯罪现场的DNA来找到几乎所有欧洲裔美国人之间的联系,同时大大扩展现有法医遗传数据库的潜在覆盖范围。研究人员称,这项研究结果还引发了亟待解决的隐私问题。
“尽早进行这种讨论是很重要的。”以色列耶胡达的消费者基因公司MyHeritage的首席科学官,纽约哥伦比亚大学的计算遗传学家Yaniv Erlich说,他领导了其中一项发布在Science杂志上的研究。
收集信息
从20世纪70年代中期到80年代末,加州发生了一系列的入室盗窃、性侵和谋杀案件,这些案件都被认为是由一个被称为“金州杀手”(Golden State Killer)或“东部地区强奸犯”(East Area Rapist)的无名人物所为。此案一度陷入僵局,但在2018年4月,警方逮捕了一名叫作Joseph James DeAngelo的嫌疑人。通过将犯罪现场的DNA与他的远房亲戚在基因档案网站GEDmatch上发布的基因档案进行比对,他被认定为嫌疑人。该网站允许人们上传从消费者基因公司获得的基因档案,以搜索亲属。
金州杀手案并不是第一起警察通过亲属DNA逮捕嫌疑人的案件。但它的高调,再加上消费者遗传测试的飞速增长,导致了类似调查的激增。在2018年4月到8月期间,这项被称为远程家族搜索的技术已经解决了十来起案件。
Erlich的团队——之前已经证实他们可以在公共数据库中识别匿名的DNA样本——开始衡量远程家族搜索的范围。许多使用这种基因搜索的刑事案件都使用了GEDmatch,它包含了大约100万人的DNA档案。
为了研究这些搜索的潜力,Erlich的团队分析了128万份MyHeritage顾客的私人匿名DNA档案。与其他消费者基因公司一样,该公司允许客户搜索拥有共同祖先(比如曾曾祖父母)的DNA片段的亲属。
Erlich的团队发现,在MyHeritage的数据库中,60%的客户都有一个表亲或近亲。对30个随机选择的GEDmatch数据样本进行检索,发现结果与该数据库中的相对匹配率类似。
但这样的基因数据库有可能识别出更多不在其中的人。例如,DeAngelo不在GEDmatch上;侦探们发现他使用了他表亲的资料。Erlich的团队估计,一个包含300万欧洲裔美国人基因档案的数据库,可以利用公开的家谱记录,识别90%的欧洲裔美国人。
(消费者基因客户绝大多数是欧洲血统,这与法医数据库形成了鲜明对比,在法医数据库中,少数族裔的人数往往居多,而几乎所有使用GEDmatch的案件都涉及到欧洲裔。)
这类搜查涉及重大的侦查工作。金州杀手调查的全部细节尚未披露,但在关注DeAngelo之前,调查人员对数十人甚至数百人进行了筛查,其中包括他的一些近亲。
一间储物柜存放着有关东部地区强奸犯案件的证据。DNA数据库可用于追踪悬案中的罪犯。来源:AP/Shutterstock
为了确定他们是否能找到数据库之外的人,Erlich和他的团队着手鉴定一位来自犹他州的匿名女性,她的DNA作为基因组学项目“1000基因组”的一部分而被公开。在2013年发表的一篇论文中,该团队利用一个将Y染色体序列与姓氏联系起来的数据库,确定了这名女子的丈夫的身份(他也将自己的DNA捐献给了这个项目)。
为了找到这名男子的妻子,该团队将她的1000基因组档案上传到GEDmatch,并在数据库中搜索远房表亲。在那些与这位犹他州女子有足够共同DNA的人当中,有两个人——分别来自北达科他州和怀俄明州——也有足够的公共家谱信息来缩小搜索范围。经过一天的研究,研究团队排除了数百名后代,最终确定了这名犹他州女子的身份。
Erlich的团队联系了美国国立卫生研究院(National Institutes of Health)——该机构参与了“1000基因组计划”(1000 genome Project)数据库——让该机构知道,他们已经确定了一名参与者。研究人员没有在论文中提及这名女子的名字,也没有试图联系她。
发现信息
DeAngelo被发现并被逮捕,仅仅是因为犯罪现场的DNA被保存了下来。这使得法医科学家可以利用现代技术将其与基因材料进行比较,后者可以确定基因组中成千上万个DNA变体的序列,或单核苷酸多态性(SNPs)。这与消费者基因测试和许多生物医学研究中使用的基因分型方法相同。
然而,在过去的几十年里,大多数犯罪现场的DNA样本都是通过一种技术进行分析的,这种技术可以确定十多个“短串联重复序列”,这些短串联重复序列的长度因人而异。联邦调查局的DNA联合索引系统(CODIS)在其计算机数据库中拥有超过1300万份这样的档案。
这使得法医学家能够确定个体的基因特征,并且相对容易从高度退化的样本中获得,比如说血点。但斯坦福大学的人口遗传学家Noah Rosenberg说,这些基因图谱不太适合匹配亲戚。他们没有确定祖先和亲缘关系的决心,就像SNP基于100万个变体进行的分析一样,而且假阳性在家族性搜索中很常见。
为了解决这个问题,Rosenberg的团队开发了一种计算方法,将CODIS样本与一个近亲的SNP样本(大多数消费者基因公司使用的测试,可用于GEDmatch的搜索)进行交叉匹配。该方法利用了DNA是大块遗传的这一事实,并且有可能识别出SNP序列,这些SNP序列倾向于作为一个特定的短串联重复在同一块DNA上传递。
到目前为止,该方法只能匹配一级亲属——兄弟姐妹或父母及其子女。模拟结果表明,使用短串联重复序列的人群中,约有三分之一的人可以正确地与具有SNP的一级相对基因型匹配(反之亦然)。Rosenberg说,这可以让那些无法从犯罪现场材料中生成SNP档案的调查人员在GEDmatch等数据库中寻找与CODIS档案的匹配,反之亦然。他的团队的研究发表在Cell杂志上。
发展趋势
与金州杀手案类似的法医系谱调查正在增多。位于弗吉尼亚州雷斯顿的DNA鉴定公司Parabon NanoLabs参与了许多此类调查,目前该公司向调查人员推销这项服务,有数十起案件正在审理中。
撰写过家族搜索伦理文章的加州州立大学统计遗传学家Rori Rohlfs说,这种搜索缺乏监管是令人震惊的。她可以想象,政策制定者会限制执法机构何时以及如何使用GEDmatch等公共数据库。
一些这样的限制已经存在。例如,在加利福尼亚州,执法部门的法医数据库只能用于在危害公共安全的重大犯罪案件中寻找家庭成员,而且族谱调查组必须与处理案件的当地侦探有所区别。
Erlich认为,技术可以保护人们免受不必要的搜索。消费者基因公司通常允许客户下载他们的数据,并将其发布到GEDmatch等第三方数据库。Erlich说,消费者基因公司可以在这些文件中加入数字签名,这样GEDmatch就可以把它们与调查人员上传的犯罪现场资料区分开来,从而保护消费者免受搜索。
不过,Rohlfs指出,GEDmatch迄今没有采取任何措施阻止调查,并更新了服务条款,以表明执法机构可能会使用该数据库。“所以在我看来,GEDmatch并没有明显地想要防止这种使用,”她说。
加利福尼亚塞瓦斯托波尔DNA Doe项目曾使用家族搜索帮助解决一些失踪人口案件,该项目的联合执行董事Colleen Fitzpatrick表示,调查人员从这些搜索中收集到的信息与其他线索没有太大区别,因此不应该以任何不同的方式对待。
“我们在生活中做的任何事情都能透露出别人的信息,”她说,“报道我哥哥在街区酒吧打架的那晚带着黑眼圈回家,就像在Facebook上展示一张贴着我祖母名字的照片一样,可以向人们透露真相。”
翻译:侯清漪
审校:王泽宇