(图片来源:Pixabay)
从虚拟医生应用到可穿戴式传感器和药房聊天机器人,由人工智能(AI)驱动的健康产品正源源不断地进入我们的生活。
IBM吹嘘其AI可以“先癌症一步”。还有人说,能读取X光片的计算机系统将淘汰放射科医生。
加利福尼亚州拉霍亚市(La Jolla,Calif)斯克里普斯研究公司(Scripps Research)的心脏病专家兼执行副总裁埃里克·托波尔(Eric Topol)说:“在我30多年的医学研究生涯中,还未见过像AI一样具有影响力和变革性的事物。”AI可以帮助医生解读心脏MRI、头部CT扫描结果和眼底照片,并可能接管许多单调平常的医疗事务,以便医生有更多时间与患者交谈,托波尔说道。
就连已经在过去5年中批准了40多种AI产品的美国食品和药物管理局(FDA)也表示:“数字健康的潜力是革命性的。”
然而,许多医疗行业专家担心,基于AI的产品达不到宣传的效果。很多医生和消费者权益倡导者担心,以“迅速失败,然后再解决”为信条的科技行业正把患者置于危险之中,且监管机构没有采取足够的措施来确保消费者的安全。
斯坦福大学生物医学伦理中心(Stanford’s Center for Biomedical Ethics)的儿科学教授米尔德里德·赵(Mildred Cho)表示,AI领域的早期试验提供了谨慎行事的理由。
赵说,在一家医院开发的系统在另一家医院部署时经常会搞砸。用于监护数百万美国人的软件已经显示出对少数族裔的歧视。AI系统有时会根据一些与疾病无关的因素做出预测,例如所使用的核磁共振成像仪的品牌、验血的时间或患者是否有牧师来探望。在一个案例中,AI软件错误地得出结论,认为如果肺炎患者合并有哮喘,其死亡可能性会减小。这个错误可能会导致医生剥夺哮喘患者所需的额外护理。
克利夫兰诊所(Cleveland Clinic)的心内科主任史蒂文的·尼森(Steven Nissen)表示:“这种情况迟早会导致严重的健康问题。”
调查公司高德纳(Gartner)7月的一份报告总结称,仅在第三季度,医疗AI就吸引了16亿美元的风险投资,“几乎处于虚高预期的峰值。”“随着现实的考验,人们可能会陷入幻灭的低谷。”
当AI产品被引入现实世界时,现实检查可能会以令人失望的结果的形式出现。即便是《深度医学:人工智能如何让医疗保健重新具有人情味》(Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again)一书的作者托波尔(Topol)也承认,许多AI产品不过是空话。“这里面鱼龙混杂”,他说。
风险投资公司文洛克(Venrock)的合伙人鲍勃·科克(Bob Kocher)这样级别的专家更是直言不讳。“大多数AI产品几乎没有证据支持”,科克说。在大批患者使用AI系统之前,某些风险是不明显的。“我们将持续探索医疗数据领域应用AI的一系列风险和意想不到的后果”,科克说。
托波尔说,美国销售的AI产品都没有经过随机临床试验的测试,而随机临床试验是最有力的医学证据来源。AI系统的第一个也是唯一一个随机试验于10月在线发表,显示结肠镜检查结合计算机辅助诊断与标准结肠镜检查相比,能发现更多的小息肉。
《欧洲临床研究杂志》(European Journal of Clinical Investigation)今年1月发表的一篇文章称,很少有科技创业公司在同行评议的期刊上发表研究成果,而同行评议的期刊可以让其他科学家审查其工作。这种只在新闻稿或促销活动中描述的“秘密研究”往往夸大了公司的成就。
尽管软件开发人员可能会吹嘘其AI设备的准确性,但专家指出,AI模型大多是在电脑上测试的,而不是在医院或其他医疗机构进行的。使用未经验证的软件“可能会让患者变成不知情的小白鼠”,斯坦福医疗保健中心人工智能临床整合医学信息学主任罗恩·李(Ron Li)说。
学习识别数据模式的AI系统通常被称为“黑匣子”,因为即使是开发人员也不知道他们是如何得出结论的。威斯康星大学麦迪逊分校(University of Wisconsin-Madison)法律与生物伦理学教授皮拉尔·奥索里奥(Pilar Ossorio)表示,鉴于AI是一个全新且拥有众多未知风险的领域,需要谨慎监管。
然而,大多数AI设备并不需要FDA的批准。
科克说:“我所投资的公司均不受FDA法规的监管。”
2016年,国会通过了一项受到科技行业支持的法案,将许多类型的医疗软件免于联邦审查,其中包括某些健身应用、电子健康记录和帮助医生做出医疗决定的工具。
根据美国国家医学研究院(National Academy of Medicine)12月17日发布的一份关于AI的报告,迄今为止尚缺乏关于目前使用的32万个医疗应用能否真正改善健康的研究。
宾夕法尼亚大学佩雷尔曼医学院医学伦理与卫生政策教授伊齐基尔·伊曼纽尔(Ezekiel Emanuel)表示:“几乎所有面向患者的所谓‘AI’产品都没有真正起作用。”
FDA长期以来一直将注意力集中在对患者构成最大威胁的设备上。消费者权益保护人士承认,与诊断或治疗疾病的设备相比,一些帮助人们计算每日步数的设备需要较少的审查。
《内科学年鉴》(Annals of Internal Medicine)2018年发表的一项研究显示,一些软件开发人员甚至在法律要求的情况下也懒得申请FDA的批准或授权。
业内分析人士表示,AI开发人员对进行昂贵且耗时的试验兴趣不大。“接受这些严格的评估并发表在同行评议的杂志上并不是这些公司的主要关注点”,博思艾伦咨询公司(Booz Allen Hamilton)的负责人、《美国国家科学院报告》的合著者约阿希姆·罗斯基(Joachim Roski)说道,“美国经济不是这样运作的。”
但西雅图艾伦人工智能研究所(Allen Institute for AI)首席执行官奥伦·埃齐奥尼(Oren Etzioni)表示,AI开发商有确保其医疗产品安全的经济动机。
“如果快速失败意味着很多人会因此丧生,我认为我们不会希望快速失败。”埃奇奥尼表示:“如果有人死亡或严重受伤,没有人会高兴,包括投资者在内。”
FDA放宽AI标准
近年来,FDA因允许销售危险医疗设备而备受指责。国际调查记者联盟(International Consortium of Investigative Journalists)认为,在过去10年里,这些危险医疗设备导致8万人死亡,170万人受伤。
这些设备中有许多是通过一项被称为510(k)途径的有争议的程序获得使用许可的,该程序允许公司在没有临床测试的情况下销售“中等风险”的产品,只要它们被视为与现有设备相似的设备。
2011年,美国国家医学研究院的一个委员会得出结论,认为510(k)程序存在根本性缺陷,FDA应将其淘汰并重头来过。
相反,FDA正使用该程序为AI设备开绿灯。
据《美国医学会杂志》(JAMA)11月发表的一篇文章称,FDA在2017年和2018年批准的14种AI产品中,有11种是经由510(k)程序被批准的。研究称,这些产品似乎都没有进行过新的临床试验。2018年,FDA批准了一款AI设备,该设备旨在用于肝癌和肺癌的辅助诊断,其原理与20年前批准的成像软件相似。该软件已获批,因为它被视为“基本上相当于”1976年以前销售的产品。
“FDA今天批准的AI产品在很大程度上是‘已经锁定的’,因此它们的计算和结果在进入市场后不会改变”,FDA设备和放射健康中心(FDA’s Center for Devices and Radiological Health)的数字健康主任巴库尔·帕特尔说道。FDA还没有批准“解除锁定”的AI设备,这种设备的结果可能会随着时间的变化而变化,是开发人员无法预测的。
为了应对AI产品的泛滥,FDA正在测试一种完全不同以往的数字设备监管方法,侧重于评估公司而非产品。
FDA于2017年启动的“预认证”试点项目,旨在“减少软件开发人员进入市场的时间和成本”,尽可能采用“负担最小”的系统。FDA官员表示,他们希望跟上AI软件开发商的步伐。与X光机等传统设备制造商相比,AI软件开发商更新产品的频率要高得多。
斯科特·戈特利布(Scott Gottlieb)2017年担任FDA局长时曾表示,政府监管机构需要确保其促进产品创新的方法“有效,能够促进创新而不是阻碍创新”。
根据该计划,FDA将对那些“证明品质和管理文化卓越”的公司进行预认证,允许它们提供较少的设备前期数据。
通过预认证的公司可以经由“精简”审查或完全不通过FDA审查来发布设备。一旦产品上市,公司将负责监控自己产品的安全性并向FDA汇报。苹果(Apple)、FitBit、三星(Samsung)、强生(Johnson & Johnson)、Pear Therapeutics、Phosphorus、罗氏(Roche)、Tidepool和Verily Life Sciences等九家公司已被选中进行试点。
高风险产品,如用于起搏器的软件,仍将接受FDA的全面评估。“我们绝不希望患者受伤,”帕特尔说道。他同时指出,通过预认证的设备可在需要时被召回。“仍然有很多‘护栏’措施来确保安全。”
但研究表明,即使是低风险和中等风险的设备也会因为对患者的造成严重风险而被召回,国家健康研究中心(National Center for Health research)主席戴安娜·扎克曼(Diana Zuckerman)说道:“某些东西在被广泛使用之前不需要被证明是准确或安全的,人们可能因此受到伤害。”
例如,强生公司就召回了髋关节植入物和手术网。
在致FDA的一系列信件中,美国医学会(American Medical Association)和其他机构对允许企业监控自身表现和产品安全的做法是否明智提出了质疑。
“荣誉制度不是一种监管制度”,医师协会董事会主席杰西·艾伦菲尔德(Jesse Ehrenfeld)说。在一封10月份致FDA的信中,马萨诸塞州民主党参议员伊丽莎白·沃伦(Elizabeth Warren)、明尼苏达州民主党参议员蒂娜·史密斯(Tina Smith)和华盛顿州民主党参议员帕蒂·默里(Patty Murray)质疑FDA是否有能力确保公司安全报告“准确、及时并基于所有可获得的信息”。
好算法干了坏事
一些AI设备相比其他设备会经过更仔细的测试。
在2018年获批之前,研究人员对10家初级保健诊所的900名患者进行了一项AI筛选糖尿病眼病的研究。IDx Technologies公司的创始人兼执行董事长迈克尔·阿布拉莫夫(Michael Abramoff)说,该公司与FDA合作了八年,才把产品做好。
该测试以IDx-DR的形式出售,对糖尿病视网膜病变(导致失明的主要原因之一)患者进行筛查,并将高危患者介绍给眼科专家,由他们做出最终诊断。
IDx-DR是第一个“自主”的AI产品,可以在没有医生的情况下做出筛查决定。该公司目前正在初级保健诊所和杂货店安装该系统,这些场所的员工只需持有高中文凭即可操作该系统。阿布拉莫夫的公司采取了不同以往的措施,购买了责任保险来覆盖患者可能受到的任何伤害。
然而,一些旨在改善医疗服务的基于AI的革新却产生了相反的效果。
例如,加拿大一家公司开发了一款AI软件,根据一个人讲话的方式来预测他患老年痴呆症的风险。对某些患者的预测会更准确。研究报告的撰写者之一、多伦多大学计算机科学副教授弗兰克·鲁兹兹说:“无法找到合适的词可能是由于不熟悉英语,而非认知障碍。”
纽约西奈山医院(New York’s Mount Sinai Hospital)的医生们希望AI能协助他们使用胸透来预测哪些患者患肺炎的风险高。尽管该系统对在西奈山医院拍摄的X光片做出了准确的预测,但在其他医院进行的图像测试中,却失败了。最终,研究人员意识到,这台电脑只是学会了区分医院在患者床边拍摄的便携式胸部X光片和在放射科拍摄的X光片。医生们倾向于对病情严重到无法离开房间的患者进行便携式胸部X光检查,所以这些患者肺部感染风险更高也就不足为奇了。
谷歌旗下的DeepMind开发了一款基于AI的移动应用程序,可以提前48小时预测哪些住院患者会出现急性肾衰竭。DeepMind网站上的一篇博客将伦敦一家医院使用的这一系统描述为“游戏规则的改变者”。但是,根据《自然》杂志7月份的一项研究,AI系统也会对每一个正确的结果产生两次错误警报。宾夕法尼亚大学附属医院影像学副教授沙鲁巴·扎哈(Saurabh Jha)说,这或许可以解释为什么患者的肾功能没有改善。早期发现严重肾脏问题的任何好处都可能被高比例的“过度诊断”所冲淡,在这种情况下,人工智能系统会标记出不需要治疗的边缘肾脏问题,扎哈说道。谷歌对扎哈的结论未予置评。
扎哈说,假阳性可能会促使医生安排不必要的检查或停止推荐的治疗,从而对患者造成伤害。例如,医生可能因担心患者的肾脏而停止给患者开布洛芬这种基本安全的止痛药,这种药相较于成瘾性强的阿片类药物而言,存在小概率的肾脏风险。
正如这些研究表明,在计算机实验室中取得瞩目结果的软件在实时测试时可能会失败,斯坦福大学的赵说。这是因为疾病比许多计算机科学家预期的要复杂得多,而医疗保健系统的功能失调也要严重得多。
赵说,许多AI开发人员会采用电子健康记录,因其包含了大量的详细数据。但是这些开发人员通常没有意识到他们是在一个严重受损的系统上构建的。电子健康记录是用来计费的,而不是用来监护患者的,且里面充满了错误或缺失的数据。
美国凯撒健康新闻(KHN)今年3月发布的一项调查发现,患者的用药清单、实验室检查报告和过敏源里存在一些有时可能会危及生命的错误。
非营利组织洛恩研究所(Lown Institute)倡导扩大医保的覆盖面,其所长、心脏病学家维卡斯·塞尼(Vikas Saini)说,考虑到其中的风险,需要医生介入来保护患者的利益。
塞尼说:“企业家的职责是高瞻远瞩、敢于冒险,而医生的职责是保护患者。”
凯撒健康新闻(Kaiser Health News ,KHN)是一家报道医疗保健问题的非盈利性新闻服务机构。它是凯撒家庭基金会的一个独立编辑项目,不隶属于凯撒永久(Kaiser Permanente)医保计划。
翻译:张国荣
审校:施怿
作者:莉兹·萨博
引进来源:科学美国人
