资讯
首页  >  专题  >  环球科学  >  环球科学<前沿资讯>

让AI学会群体技分析更多科学数据


图片来源:Pixabay
团体得益于成员之间知识和经验的交流。一个国际研究小组遵循一个与此类似的原则,用“群体学习(Swarm Learning)”的模式训练人工智能算法,在以去中心化方式储存的数据中检测血癌、肺部疾病和新冠肺炎(COVID-19)。由于能够提供隐私保护技术,这一方法相比于传统方法更具优势,且有助于科学数据的跨站点分析。因此,“群体学习”能够极大促进和加速研究领域的合作与信息交流,在医学领域中尤其明显。来自德国神经退行性疾病研究中心(German Center for Neurodegenerative Diseases,DZNE)、德国波恩大学(University of Bonn)、美国信息技术公司惠普企业服务Hewlett Packard Enterprise (Hewlett Packard Enterprise, HPE),和其他研究机构的专家在科学期刊《自然》(Nature)对此进行了报告。
科学和医学越来越数字化。分析大量该领域的信息——也就是我们所熟知的“大数据”——是找到更好的医疗方案的关键。DZNE系统医学(Systems Medicine)的主任,波恩大学生命与医学科学研究所(Life & Medical Sciences Institute,LIMES)的教授Joachim Schultze说:“医学研究的数据是一个宝库,它在个性化医疗手段的开发中起决定性作用。相比于传统的治疗手段,(个性化医疗手段)对个人更具针对性。而能够从更多的资料来源中尽可能全面地获取并运用这些数据,对科学研究而言是至关重要的。”
然而,跨地点或者跨国家的医学研究数据交换受到数据保护和数据主权条例的限制。事实上,这一需求需要大量的努力来实现。此外技术壁垒也是一个问题。比如,对大量数据进行数字传输时,数据线会很快达到其性能极限。正因为这些原因,许多的医学研究都局限于本地,而无法使用其他位置的数据。
将数据储存在原处
考虑到这一点,在一项由Joachim Schultze领导的研究中,研究者们测试了一种全新的,用于评估以去中心化方式储存的研究数据的方法。这一方法以HPE公司开发的“群体学习”技术为基础。除了互联网技术公司之外,希腊、荷兰、德国的众多研究机构也同样参与了这项研究,其中包括德国新冠肺炎组学倡议联盟(German COVID-19 OMICS Initiative, DeCOI)。
“群体学习“结合了一种特殊的、在网络节点间进行信息交换的方式,而这种方式是通过“机器学习”这一人工智能分支实现的。机器学习的关键在于其算法,它利用数据进行训练,由此学习其中的特征,从而获得在其他数据中识别已习得的特征的能力。HPE高级副总裁兼人工智能首席技术官Eng Lim Goh博士说:“群体学习为医学研究和商业合作提供了新的机会。”
事实上,通过“群体学习”,所有数据还是储存在原处,只有算法和参数是共享的。以这一方式,也能获得(医疗案例的)经验。Joachim Schultze强调:“群体学习以一种自然而然的方式满足了数据保护这一要求。”
协同学习
科学家波恩解释说,与同样将数据储存在原处的“联邦学习(federated learning)”不同,“群体学习”中不存在集中化的控制中心。“‘群体学习’是一种建立在所有合作者事先商定的规则上的合作方式。这些规则被储存在一个区块链上。”这是一种以绑定方式管理合作成员间信息交换的数字协议,它记录下所有的事件,以及所有访问过它的成员。Schultze说:“区块链是‘群体学习’的支柱,所有该群体中的成员拥有相同的权力,没有中心化的力量去控制事件的发生及结果。所以,从某种意义上说,没有网络爬虫(spider)控制数据网络。”[译注:网络“爬虫(Spider)”,或称“机器人(Robot)”,是指能够在万维网上漫游,自动获取链接文档的程序,因其在万维网上爬行的行为而得名。

图片来源:pixabay
因此,这种人工智能算法能在本地,也就是在各个网络节点可访问的数据的基础上进行学习。每个节点的学习结果将通过区块链以参数的形式被收集,并通过系统进行智能处理。这些结果,也就是优化后的参数,将被传递给所有成员。这个过程重复多次后,各个网络节点识别数据特征的算法能力都将逐渐提高。
肺部图像和分子特征
研究人员现在通过分析肺部X光片及相关转录组数据,证实了该方法的可行性。目前的研究中,研究者们重点关注血液中的免疫细胞——白细胞。Schultze说:“血细胞基因活性的数据就是一个分子指纹,它们包含了生物体面对疾病如何做出反应这一重要的信息。就像X光片一样,转录组是一种可获得的、数据量大、同时又非常复杂的信息,而这正是需要用到人工智能去分析的信息。这样的数据非常适合用于测试‘群体学习’。”
研究小组共研究了包括传染病和非传染病在内的四种疾病:两种血液癌症变体(急性髓细胞性白血病和急性淋巴母细胞白血病),以及结核病和新冠肺炎;使用了16,000多个转录组的数据;建立了最少3个节点,最多32个节点构成的群体学习网络。除了转录组,研究人员分析了大约100,000张胸部X光片。这些数据来自存在肺部积液或具有其他病理表现的患者以及无症状的个体,且储存在三个不同的节点上。
未来可期
对转录组和X光片的分析遵循相同的原则:首先,研究者将不同数据集的子集输入他们的算法。这些数据包括来自患者的样本,以及来自无症状个体的样本。对“生病”或“健康”的特征进行学习之后,再进一步用以识别需要被分类的数据,即用算法将数据分为有或没有疾病两类。对转录组分析的准确率(算法区分健康个体和患病个体的能力)平均约为90%(对四种疾病分别进行评估);对X光片数据分析时,准确率则为76%到86%之间。
Schultze对分析的结果做出了评价:“这种方法检测白血病最有效。在这种疾病中,基因活动的特征非常显著,因此人工智能最易于检测。对传染病的检测不确定性更大。不过,人工智能对结核病和新冠肺炎的检测准确率也很高。分析X光片数据时准确率较低,是由于数据或图像质量较所差导致的。因此,我们的研究证明,群体学习可以成功地应用于不同的数据。原则上,该方法适用于人工智能能识别出模式的任何信息类型。可以是基因组数据、X光片、脑成像数据等其他复杂数据。”

图片来源:pixabay
研究还发现,“群体学习”的分析结果比网络中的节点单独学习的结果要好得多。Schultze说:“尽管只有本地数据可用,但每个节点的分析也受益于从其他节点获得的学习经验。因此,‘群体学习’这一概念通过了实践检验。”
Schultze表示:“我相信,‘群体学习’可以极大地推动医学研究和其他以数据为驱动的学科的发展。目前的研究只是一个测试,在未来,我们打算将这项技术应用于阿尔茨海默病和其他神经退行性疾病。‘群体学习’有可能改变数据使用的‘游戏规则’,并有助于获得全球范围内丰富的医学经验。比如,不仅研究机构,医院也可以联合起来形成这样的群体,共享信息,实现互利。”
翻译:顾晨月
审校:魏潇
引进来源:DZNE-GERMAN CENTER FOR NEURODEGENERATIVE DISEASES
本文来自:中国数字科技馆
特别声明:本文转载仅仅是出于科普传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或其它相关事宜,请与我们接洽。
[责任编辑:环球科学]
分享到:
文章排行榜
©2011-2021 版权所有:中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号-1 京公网安备11010502039775号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台
./t20210703_1050766_taonews.html