资讯
首页  >  专题  >  环球科学  >  环球科学<前沿资讯>

资金不足、人手短缺的arXiv,快跟不上科学的发展速度了


图片来源:Pixabay
一切始于1989年。从一封包含十几位弦理论专家的电子邮件,到如今收藏了超过200万篇论文的网站,arXiv成为了一个汇聚物理学家、天文学家、计算机科学家、数学家和其他学者的中心。2022年1月3日,一篇题为《仿射迭代和翘曲效应:多种方法论》(Affine Iterations and Wrapping Effect: Various Approaches)的数值分析论文让预印本服务器arXiv跨越了新的里程碑。(作为参考,著名的亚历山大图书馆收藏的手稿达到了数十万份。)
“我们提供方法,让作者们迅速自由地交流自己的科研成果。” 斯坦因·西古德松(Steinn Sigurdsson)如此说道,他是美国宾夕法尼亚州立大学(Pennsylvania State University)的天体物理学教授,也是arXiv的科学总监。不同于传统学术期刊,arXiv(发音与英文archive相同,因为X代表希腊字母chi)让科学家在接受同行评审之前就能分享自己的研究成果。
论文作者向传统期刊提交手稿后,通常要等上一年半载甚至更久才会发表,而上传arXiv一天之内就能看到文章。作者们经常会将手稿上传至arXiv,然后在同行评审期刊上发表最终版本。但渐渐地,论文就只出现在arXiv上了。除了传统手稿,arXiv还包含白皮书、历史综述,甚至“不要脸”的愚人节假论文。
“这就像我们领域的支柱。”欧洲核子研究中心(CERN)的科学信息服务主任亚历克斯·科尔斯(Alex Kohls)如此说道。CERN位于瑞士日内瓦附近,是全球首屈一指的粒子物理研究组织。“它不仅是物理学家和计算机科学家的工具,而且还对整个学术交流进程产生影响。”例如,生命科学领域受到arXiv启发,也建立了自己的预印本服务器,如bioRxiv和medRxiv,它们已被证明在新冠疫情大流行期间为加速生物医学研究发挥了宝贵作用。
服务器经历了爆炸式发展。2008年,也就是arXiv上线的17年之后,它收录的论文数量达到了50万篇。到2014年底,这个数字翻了一番,达到100万篇。7年后,arXiv论文库总数再次翻番,但它仍然在跌跌撞撞地摸索自己的角色:是更接近于选择性地发表学术论文的期刊,还是无差别收集各种论文的在线文库?
面对这一困惑,一些研究人员关注到arXiv的审核规则,这些规则在他们看来缺乏透明度,导致论文被不公平地拒稿或者错误分类。与此同时,arXiv也在努力改善论文审核人员的多元性,目前这些人大都是美国研究机构的男性科学家。
物理学者间流传着一个共识:“如果论文不在arXiv上,那就等于不存在。”换言之,对于相当一部分学科来说,arXiv已成为科学进程本身不可或缺的一环。而对于使用它的研究者来说,arXiv是日常工作流的一部分:他们早上喝咖啡时可能会同时浏览上面的最新文章,中午提交一篇自己的论文,晚上下载阅读材料。这一重要作用证明了 arXiv的成功,但也表明这个论文数据库的问题不仅仅属于它自身,也属于广大学者。
灾难性成功
在arXiv出现之前,物理学家的传统操作是邮寄预印本论文,他们将尚待同行评审的手稿复印件寄给全球各地的实验室和大学图书馆,供渴求最新科研成果的读者阅读。时间流逝,预印本数量已经变得极其巨大,纸质邮寄变成了电子邮件。随后,到了1991年,如今在美国康奈尔大学(Cornell University)的保罗·金斯帕格(Paul Ginsparg)将自己的同事、物理学家乔安妮·科恩(Joanne Cohn)的电子邮件列表自动化成了一个任何人都可以提交并登录的论文库,效果立竿见影。
“几年之内,几乎所有粒子物理学的论文都会先提交到arXiv上。”科尔斯说。得益于其令人印象深刻的快速发布,这一操作后来在物理、数学和计算机科学领域盛行起来,arXiv很快取代了传统期刊或者会议,成为查找最新科研成果的主要场地。
“上周五一架望远镜看到了新东西。这周一相关论文就出现了。到了周二,就有论文反驳周一发表的文章。” 西古德松说,“真是又有趣,又刺激。”
拉努·金(Lanu Kim)是韩国科学技术院(Korea Advanced Institute of Science and Technology)的学者,她领导的一项研究发现,arXiv上高引用论文的作者越来越不会在传统期刊上发表同样的论文。“如果在arXiv上已经获得足够的关注,他们可能不想重走一遍期刊论文发表的麻烦流程。”金解释道。她的研究还发现,传统期刊对于引用量仍有重要影响,但它们的角色更像是研究论文的“监管者”,而不是“传播者”。
尽管获得了巨大的成功,但arXiv一直在与稳定性和资源作斗争。服务器历经动荡,在康奈尔校园内的位置几度变迁。目前,资金仅能支持少数员工帮助志愿审核员每天处理 1200份投稿。“我们就像一辆老爷车,全身锈迹斑斑,发动机活塞也磨损殆尽。” 西古德松说,“我们人手不够,资金也不足,已经持续好几年了。”
同样地,作为一家机构而发展的arXiv,其成长速度远跟不上依赖它的科学界的发展速度。“很长时间以来,arXiv只由少数几个人运营。”科尔斯说。即使现在,约有200 名志愿审核员管理着约150个分类学科,他们平均每人每天处理30篇论文,这一因素导致了延误以及其他问题。
一切尽在审核
论文作者提交论文后,文章就进入常规的审核员评估流程。如果审核员没有看出哪儿有问题,那么通常第二天论文就会发布在网站上。但审核员会频繁干预,令发布时间延后几天甚至几周,他们还会给论文重新分类,甚至直接拒稿。
“他们正在采取行动,似乎要和预印本服务器本来该发挥的作用对着干。”印度国立卡纳塔克邦技术学院(National Institute of Technology Karnataka)的物理学家迪帕克·维德(Deepak Vaid)说道。他指出自己所说的是不一致的审核与透明度的缺失。
延后发布可能看似微不足道,但是对于争分夺秒首发科学发现或者大胆新假设的科学家来说,哪怕几天也可能很关键。arXiv的“一般(general)”类别是一个包罗各种研究,但质量可疑的分组,审核员为了更有效地审阅他们认为没有满足更精细分类标准的投稿,有权将提交的论文划分至这一组别。最后,他们还能直接拒稿。
“我们必须制定一个基准。”西古德松说,他想要说的其实是arXiv有时候会收到一些看上去是伪科学的论文投稿,例如一些声称“已经证明爱因斯坦错了”的文章,或者已经构建好“万物理论”的文章。为了防止数量过多的论文挤爆服务器,arXiv要求投稿者必须“经过认证”。最开始,认证基于学者所在的学术机构,但现在可以选择“背书”系统:任何人,只要有一名经过认证的用户做担保,并且该担保人在同一“研究领域”撰写过一系列论文,那么这个人就可以投稿。“有了这一机制,我们磕磕碰碰地前进,因为有总比没有好。”西古德松说道。
维德认同有必要通过背书或者其他验证系统来清除伪科学。但他也说,因为预印本服务器不是期刊,arXiv和审核员可以放松标准,不那么下重手拒稿。
西古德松举了一个反例:“如果信噪比变得太糟糕的话,那就毫无用处。这样,你还不如去阅读YouTube的评论。”在arXiv,大约6%的投稿会被搁置,还有约2%会被拒绝接受。像《自然》(Nature)和《科学》(Science)这样的顶尖期刊,稿件接收率则少于10%(arXiv在质量控制方面的努力还激励了竞争性预印本服务器的创建,例如 viXra,他们以最低的审核标准接受投稿。毫不意外,主流学者认为这样的论文库效用很低。)
尽管审核不是同行评审,arXiv的审核员却拥有和期刊编辑同样的拒稿权力。“他们执行我所谓的‘一眼评审制度’:快速翻阅一遍,不假装全面理解,也不假装使用极低的标准。” 金斯帕格说,“他们的审核倾向永远朝着‘接收’的方向,因为我们期待科学会自我纠正。”
对一些充满希望的作者来说,号称低接收门槛的arXiv做出任何拒稿决定,都让他们难以接受。2017年,维德的一篇文章被拒稿了,理由是其引言“使用了一种高度戏剧化的歪曲口吻”。而当他要求平台给出拒稿说明,希望借此重写引言时,一位arXiv代表回复说:“审核员不是裁判,他们不会提供拒稿决定的细节。”
因为审核员没有时间展开全面的同行评审工作来审核每一篇投稿,arXiv的规定也不是为了详细说明其拒稿原因。“我们不想陷入争论。”西古德松说。因此,作者能够针对拒稿或者分类错误发起申诉,但过程是冗长的:作者经历了和同行评审一样的麻烦过程,换回的结果是把文章发布在预印本服务器上。
2021年8月,arXiv审核员拒绝了中国知名科学家陆朝阳和潘建伟的一篇论文,他们两人分别在量子研究领域贡献了许多个“第一”。尽管陆朝阳表达了自己对arXiv拒稿的困惑和沮丧,但两位科学家没有申诉,而是将文章发布在viXra和其他服务器上。罗伯托·卡萨迪奥(Roberto Casadio)是意大利博洛尼亚大学(University of Bologna)的理论物理学家,他独立评估了这篇论文,也不明白拒稿原因。“论文探讨的主题完全属于arXiv广义相对论和量子宇宙学范围内。”卡萨迪奥说道,“无论结论对错,重要的是arXiv的读者们能够,也应该有机会独立阅读文章。”
寻找代表
arXiv面对的一些问题源头可能来自其审核员构成的失衡。在200名审核员中,女性只占了13%,正如前文所述,大部分人是美国研究机构的男性科学家。许多人在自己的领域耕耘了几十年,他们开始自己学术生涯的时候,数学、物理和其他物理类学科还没有像现在这样存在那么多分支。

尽管arXiv已经成为全球顶级科研论文库,但是负责接收稿件或者拒稿的审核员绝大部分来自美国和欧洲,这样的身份失衡给学术公平性带来挑战。图片来源:Amanda Montañez; Source: arXiv
西古德松承认,“要是arXiv审核员把自己当作终身研究小组,反思一下其中的人口统计情况,那就好了。”但是,招募新的团队成员也很难,因为审核工作吃力不讨好,没有什么职业回报,而且缺点众多。尤其是女性审核员,她们常常成为侮辱性电子邮件狂轰滥炸的目标。
除了性别与国籍的明显失衡,维德还指出arXiv存在一些主观观念上的阴暗面。当需要统一量子场论和引力时,弦理论往往比圈量子引力(loop quantum gravity)等其他方法更受欢迎。而审核员和期刊编辑一样掌握着部分权力,能决定哪些类型的理论可以被发布。虽然维德没有整理出确凿证据来证实自己的怀疑,但他认为与弦理论支持者相比,圈量子引力支持者更常被拒稿。
那么让审核员更加多元化是否能解决批评者的抱怨呢?目前还不清楚。国际科学界的成员有很多共同点,但审核员多元化的问题和过分偏爱或者不当拒稿的问题或许存在关联。
6年前,瑞士日内瓦大学(University of Geneva)的量子物理学家尼古拉斯·吉辛(Nicolas Gisin)声称2014年他们的文章被arXiv拒稿后,他的学生受到了来自该网站的限制[2015年,该论文通过了同行评审,经修改发表在《物理快报 A》上(Physics Letters A)]。对吉辛来说,这一遭遇让他产生了疑问:arXiv到底属于谁?是运营网站的员工和志愿者?还是用研究成果支持它的全球科学家?
金斯帕格说,arXiv的初衷曾是“归属于”更广阔的物理学界,但他又指出,尽管服务器最初为物理学家而建,但如今计算机科学的论文占据了大部分投稿。
在法律角度上,arXiv以康奈尔大学为核心,资金上受到美国西蒙斯基金会(Simons Foundation)和一家国际学术机构联盟的支持,但科尔斯说:“我们的学者觉得arXiv 属于整个科学界。”

图片来源:Pixabay
如果确实如此,arXiv属于更广泛的科学社区,学界也依赖它,向里面填满了200万篇论文,那这对于arXiv的未来有什么意义呢?
在维德看来,答案相当明显:“任何‘一切照旧’的做法注定失败。”没有问责制,就是零,就完蛋,他这样说道。他相信,arXiv需要更加透明化自己的标准,解释拒稿原因。西古德松则认为,在arXiv建立更完整全面的同行评审制度不太可能会成功。但他也说自己打算在未来几年将审核员数量增加到至少300人,这样每个学科分类都最少也能有两个人负责。
金斯帕格也承认,arXiv的独特地位表明了它对学界的责任。“然而,让全球多个领域的研究输出集中在单个门户网站,无疑会产生原则性问题。”他说,“arXiv的行动和任何无意识的偏倚都应该受到持续监督。”
如果照目前的步伐发展,十年之内arXiv收录的论文数量还能再翻番。下一批200万篇论文会带来什么发现,我们无从得知,但arXiv在科学界的主角地位似乎不太可能会让给别人。
CERN最近在翻新图书馆,在这个过程中一项调查询问了CERN的科学家他们想要什么:新的办公用具?更美味的咖啡?“而他们的回答是:‘放个大屏幕,编个脚本,每天自动显示arXiv又有什么新投稿。’”科尔斯说,“这可能会成为CERN图书馆的核心。”
撰文:Daniel Garisto
翻译:阿金
审校:魏潇
引进来源:Scientific American
本文来自:中国数字科技馆
本文是中国数字科技馆(www.cdstm.cn)原创内容,转载请注明出处和作者,否则我们将依法追究侵权责任。
[责任编辑:环球科学]
分享到:
文章排行榜
©2011-2025 版权所有:中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号-1 京公网安备11010502039775号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台
./t20220131_1064118_taonews.html