2015年两位哈佛教授和他们的合作者发表了一项具有里程碑意义的研究发现,“超过半数的心理学研究无法重复”的说法其实是错误的。
为了确定心理科学的可重复性,一个由270名的科学家组成的团队——也就是我们熟知的开放科学合作组织(The Open Science Collaboration ,OSC)尝试再现100项已发表的心理研究结果。其中一半以上的实验都失败了,造就了心理学的“重复危机”—这一条轰动全球的头条新闻。
但是,经过深入地研究,Daniel Gilbert (哈佛大学心理学系Edgar Pierce讲席教授), Gary King (哈佛大学Albert J. Weatherhead三世校级教授),Stephen Pettigrew (哈佛大学政治学院在读博士生),以及 Timothy Wilson (弗吉尼亚大学心理学Sherrell J. Aston校级教授)指出,OSC犯了一些严重的错误,使这个悲观的结论完全没有说服力。
许多重复实验的方法和原先设置有很大的不同,根据Gilbert, King, Pettigrew和Wilson的说法,这些“失真”有两个重要的影响。
首先,他们将统计误差带入数据中,这使得OSC显著低估了他们重复实验偶然失败的数量。当考虑这个误差后,如果所有100项原始研究都正确的话,那他们的实验失败的次数应当不超过人们预先估计的次数。
其次,Gilbert, King, Pettigrew,以及 Wilson发现同高保真的研究相比,低保真的研究失败的可能性是前者的四倍,这表明如果重复实验者背离了初始实验的方法,那么他们的失败只能说是自己实验的失败。
最后,OSC使用了“低效率”的设计。当 Gilbert, King, Pettigrew,和 Wilson应用该设计分析一个已发表且具有很高重复率的数据集时,它也表现出低重复率,这表明OSC的设计从一开始就注定要低估心理科学的可重复性。
Gilbert和King称,单独来看,每个问题都足以让这项研究的大多数人对结论表示怀疑,但一并考虑时,它们却完全否认这种情况。发表在3月4日《科学》(Science)上的一篇评论对这些疑点进行了描述。
当OSC的文章出现时,同大多数科学家一样, Gilbert, King, Pettigrew,和 Wilson对此感到震惊和懊恼。但是,当他们开始仔细探究这些方法并重新分析原始数据后,他们立即发现问题—问题始于如何选择这100项原始研究。
“如果你想估计总体的参数,”King说,“那么你要么从人群中人口随机抽样或对未进行随机抽样的事实进行统计校正,OSC一个都没做”。
“他们做的,”Gilbert补充道,“是创建了异质且主观的名单,他们的抽样排除了多数的心理学分支,即排除了那些科学方法最适用的全部研究。然后他们继续违反自己的规则。更糟的是,他们竟然允许一些研究人员人为选择试图重复的研究。如果他们使用相同的方法进行抽样而非研究,我想没有哪个信誉好的科学杂志会发表他们的研究。所以我们意识到的第一件事是,不管他们发现了什么——好消息还是坏消息——他们从来都未能估计过心理科学的可重复性,虽然这是他们在论文中强调的他们做到的事情。”
“这仅仅是个开始,”King说,“如果你要重复100项研究,有些会失败可能只是概率问题。这是基本抽样理论。所以,你必须用统计方法来估计有多少研究会因偶然的原因失败,如果不这样做的话,仅仅计算失败的次数是没有意义的。”
King说,OSC虽然这样做了,但他们犯了一个严重的错误。
“当他们进行计算时,他们没有考虑到一个事实,即这些重复研究的样本不是来自同一个人群的新样本。他们在许多方面都与最初的样本不同,而这些差异是统计误差的来源。所以,我们运用正确的计算方法,然后将它应用到他们的数据。你猜怎么着?他们观察到的失败的次数正是你应该一开始估计会偶然失败的次数——即使这100项初始研究都正确。重复研究未能再现原始研究,这是重复本身的失败,而不是初始研究的失败。”
Gilbert指出,大多数人认为重复就是一个原来研究的“翻版”。
“读者一定会认为,如果一组科学家做了100次重复实验,那么他们必须使用相同的方法来研究相同的人群。对于本研究,这种想当然是相当错误的。重复的实验应当与原始的实验只有细微的不同,但如果你仔细看我们做过的研究,你会发现,许多重复实验与原始的实验有很大的区别,使得人们很难理解它们怎么能称得上是重复的”。
Gilbert举了个例子,一项初始研究是给斯坦福大学白人学生观看其他四名同校学生讨论斯坦福大学招生政策的视频。讨论者中,三名是白人,一名是黑人。在讨论过程中,一名白人学生就平权法案发表了一些激进的评论,研究人员发现,与认为不能听到的人相比,当观察者认为黑人学生能听到他人的评论时,观察者看黑人学生的时间明显更长。
“那么,他们怎么做的重复实验呢?他们选的是阿姆斯特丹大学的学生!”Gilbert说。“他们让这些荷兰学生观看斯坦福大学学生的视频,视频中的学生在离观察者5000英里远的大学里用英语讲着平权法案。”
换句话说,与原始先研究的参与者不同,重复研究中的参与者观看的是国外大学学生用外语讨论着与他们无关的事。
但Gilbert说,这不是最令人头痛的部分。
“如果你进一步深挖这些数据,你会发现别的东西,”Gilbert说。“重复实验人员也意识到,在荷兰进行这一项研究可能有问题,所以他们明智地决定在美国再进行一次。而当他们这么做后,他们基本上得到了原始研究的结果。然而,当OSC估计心理科学的可重复性,他们排除了成功的重复实验,而只包括阿姆斯特丹大学失败的研究。所以,公众听到‘另一种心理研究不能对其重复’而不是‘当你正确地实施一项心理研究时,它能较好地重复,反之,则不能’,因为后者并不是一个非常激动人心的标题。一些重复实验相当忠实于原实验,但任何仔细阅读了所有重复实验报告的人会发现有很多这样的例子。”
“这些不实造成问题的其他原因是,”King补充道,“他们将额外的误差引入到数据集中。这些误差是可以计算的,当我们这样做后,发现如果每项研究一开始都正确的话,重复实验失败的次数与我们预先估计的一样。现在,人们可以讨论如何能更好地优化这个计算,但事实是,OSC一点儿都没做。他们就那样忽略了这个强有力的误差来源,从自己的数据里得到错误的结论,当然,这并不意味着,100项研究都是正确的,但它表明这篇文章没能提供相反的证据。”
“因此,我们现在知道不忠于原始研究造成了统计偏倚,”Gilbert说,“但这是这篇文章的全部吗?或者说是某一种不实?换句话说,原文作者只是想改变原来的结果,或者以某种特定的方式改变它?”
“为了找到答案,”King说,“我们需要评估数每项研究重复实验的可信度。幸运的是,OSC已经做了。”
每个重复实验开始之前,OSC会让原作者检查计划的重复研究,并问他们是否会认可它作为自己工作的可信的重复实验,大约70%的人认为可信。
“我们将其作为可信度的一个粗略指标,这样做后,我们发现了一些重要的东西:低信度的重复实验失败的可能性比高信度的高四倍,十分惊人,”King说。“这提示,低信度不只是产生随机统计误差,它们实际上会偏向于失败。”
在他们的技术评论中, Gilbert, King, Pettigrew,和 Wilson也注意到,OSC用了一个”低效率”的设计:他们将100项研究各重复了一次,用了与原始研究中大致相当的样本量。但King说道,这种方法人为地降低了重复率。
“为了说明这种情况,我们拿出了另一篇已发表且检验了经典心理学研究可重复性的文章,”King说。“那篇论文的作者使用了一种高效的设计,将每项原始研究的样本量扩展了至少三十倍。得到了非常高的重复率。因此,我们提出一个简单的问题:如果这些作者使用了OSC使用的低效率的设计会发生什么?答案是,重复率甚至会比OSC找到的重复率更低。”
尽管这项里程碑式的研究揭露了严重的问题,Gilbert和King也强调说,他们的批评并不意味着有任何不当行为,这仅仅是科学探究的常规过程的一部分。
“我们清楚,”Gilbert说,”参与这项研究的人,没有试图去欺骗任何人。他们只是犯了错,就像其他科学家有时也会犯错一样。许多OSC成员都是我们的朋友,而通讯作者Brian Nosek,其实是一个很好的朋友,在我们写评论文章时,帮助了我们很多,”Gilbert说,“事实上,我们用于校正的OSC误差计算的方法之一,就是Brian建议的。因此,这不是人身攻击,这是一个科学的批判。我们都关心同样的事:将科研做好,找到真相。我们很高兴地看到,他们对我们的评论进行了回应,OSC反驳了一些小问题,但承认了其中最主要的问题,他们的论文也不能为大多数人得出来的悲观结论提供证据。”
“我觉得这里需要提出的一点是,meta分析必须服从科学规律,”King说,“ 所有关于抽样和计算误差并让实验者不知情,这些规则,不管你是要研究人,还是研究一门学科的重复性,都要遵循。meta分析也不可避免地要遵循这些原则,并且没有凌驾于它们之上,它们是科学过程的一部分。如果你违反科学的基本规则,你就会得到错误的答案,就像在这发生的一样。”
“这篇文章有很大的影响,”Gilbert说。“这是《科学》杂志各个科学领域的三项“年度突破”之一,这导致了许多科学期刊政策的变化,投资机构重点的变化,而且严重破坏了公众对心理学的认知。因此,应对其进行反思,说这只是失误是不够的。这些错误有非常严重的影响。我们希望,OSC之后应当努力去纠正公众对此产生的误解。”
翻译:方露
审稿:杨倩
http://medicalxpress.com/news/20 ... ogical-science.html
留言