在一家繁忙的医院里,一名放射科医生可能需要使用人工智能系统,帮助她根据病人的x射线图像诊断病情。使用人工智能系统可以帮助她做出更快的诊断,但她怎么知道什么时候该相信人工智能的判断呢?
她可能无法确定。相反,她很可能依靠自己的专业知识、系统本身带给她的信心,或对算法提供的看起来有说服力的解释来进行判断。
为了帮助人们更好地理解何时信任人工智能的“队友”,麻省理工学院的研究人员发明了一种入引导教程,指导人类更准确地理解机器做出正确判断或错误判断的情况。
这种引导教程通过向人们展示人工智能如何对他们的能力做补充,可以帮助人类在使用人工智能时做出更好的决定或更快地得出结论。
“我们设计了一个引导教程,逐渐将人类引入这个人工智能模型中,这样他们就可以自己看到它的弱点和优点。”计算机科学和人工智能实验室(CSAIL)和医学工程与科学研究所临床机器学习小组的研究生 Hussein Mozannar说。“我们通过模仿人类在实践中与人工智能互动的方式来做到这一点,但我们会干预,给他们反馈,帮助他们理解他们与人工智能的每一次互动。”
Mozannar与计算机科学助理教授Arvind Satyanarayan共同撰写了这篇论文,后者是CSAIL可视化小组的负责人,还有一位资深作者是麻省理工学院电子工程和计算机科学副教授、临床机器学习小组组长David Sontag。这项研究将于2月在人工智能发展协会大会(Association for The Advancement of Artificial Intelligence)上发表。
心智模式
这项工作的重点是建立人类与他人相关的心智模式。如果放射科医生对某个病例不确定,她可能会询问某个领域的专家同事。根据过去的经验和她对这位同事的了解,她对他的优点和缺点有一个心智认知模式,她用这个模型来评估他的建议。
Mozannar说,当人类与人工智能互动时,他们会建立相同的心智模式,所以这些模型的准确性是很重要的。认知科学表明,人类通过记住过去的互动和经历来为复杂的任务做出决定。因此,研究人员设计的这个引导过程,提供了人类和人工智能共同工作的代表性案例,作为人类在未来可以利用的参考点。他们首先创建了一种算法,可以识别出最能教会人类人工智能的例子。
他说:“我们首先通过观察人类专家过去在不受人工智能引导的情况下所做的决定,来了解他们的偏见和优势。”“我们将自己对人类的了解与对人工智能的了解结合起来,看看人工智能在哪些方面会对人类有所帮助。然后我们得到了人类应该依赖人工智能的案例,以及人类不应该依赖人工智能的类似案例。”
研究人员在一个基于段落的问题回答任务上测试了他们的引导技术。用户收到一个书面段落和一个问题,其答案包含在该段落中。然后用户必须回答这个问题,并可以点击一个按钮来 “让人工智能回答”。人类的回答可能是对的,也可能是错的,而人工智能的回答可能是对的,也可能是错的,但无论如何,但在回答问题后,用户都能看到正确的答案和为什么人工智能选择它的解释。
例如,问题是基于植物学课本上一段令人费解的段落,问两种植物中哪一种是更多大陆的原生植物。人类可以自己回答,也可以让人工智能系统回答。然后,她看到了两个后续的问例,帮助她更好地了解AI的能力。也许人工智能在一个关于水果的问题上是错误的,但在一个关于地质学的问题上是正确的。在每个例子中,系统用来进行预测的单词都被突出显示。Mozannar解释说,看到突出显示的文字有助于人们理解人工智能的局限性。
为了帮助用户记住他们所学到的东西,用户写下她从这个教学例子中推断出的规则,如“这个AI不擅长辨别花。”然后,当她在实际中与AI一起工作时,她可以参考这些规则。这些规则也构成了用户对AI的心智模式的形式。
教学成果
研究人员在三组参与者中测试了这种引导方法。其中一组完成了整个引导教程,另一组没有收到后续的对比例子,基线组没有接受任何引导培训,但可以提前看到人工智能的答案。
研究人员深入地研究了这些测试数据,以了解个体参与者所写的规则。他们发现,近50%接受培训的人写出了关于人工智能的准确经验能力。那些写出AI准确经验能力的人回答正确了63%的问题,而那些没有写出AI准确经验的人答对了54%。那些没有接受引导教学但能看到人工智能答案的人在57%的问题上是正确的。
他说:“当引导教学成功时,它会对人们的判断能力产生重大影响,所以我们必须想办法更有效地引导参与者,这就是我们的收获。”
但研究结果也显示,两者仍存在差距。只有50%接受训练的人建立了准确的面对人工智能的心智模式,即使是那些接受人工智能引导训练的人,也只有63%的时间是正确的。Mozannar说,尽管他们获取了关于AI经验和能力准确的教训,但他们并不总是遵循这些规则。
这是一个让研究人员困惑的问题——即使人们知道人工智能应该是正确的,为什么他们不听从自己的心智模式?他们希望在未来继续探索这个问题,并改进引导过程,比如使用更复杂的人工智能模型进行用户研究,尤其是在医疗保健领域。
最热文章
人工智能写科幻小说,和作家写科幻小说有什么不一样?
德国概念设计师Paul Siedler的场景创作,宏大气派。
《静音》是一部 Netflix 电影。尽管 Netflix 过去一年在原创电影上的表现并不如预期,但是《静音》仍让人颇为期待
最近,美国最大的经济研究机构——全国经济研究所(NBER,全美超过一半的诺奖经济学得主都曾是该机构的成员)发布了一份报告,全面分析了 1990 到 2007 年的劳动力市场情况。\n
坏机器人制片公司最新的一部电影名为《霸主》(overlord),背景设置在二战时期,很可能是一部在半遮半掩中秘密制作的科洛弗电影系列。
我们都知道,到处都在重启;我们也知道,如果有钱,啥都能重启。所以,会不会被重启算不上是个问题,只能问什么时候会被重启。自然而然地,世界各地的各种重启现象衍生出了一个有趣的猜猜游戏:哪一部老作品会是下一个接受这种待遇的?\n