数据“欺诈”:统计“失误”如何影响了科研诚信?
《如何确保你的科研数据真实可靠:从一个明星学者的数据欺诈事件学到的教训》一书,可以说是荷兰统计学家克拉斯·西茨马教授亲身经历的荷兰蒂尔堡大学社会与行为科学学院的院长、社会心理学家迪德里克・斯塔佩尔数据造假事件的审查总结。这位发表过100 多篇顶级期刊论文的明星学者,在 15 年间系统性伪造了 数据集,包括那篇发表在《科学》()上、声称 “肮脏环境会加剧歧视行为”的重磅研究,实则全是凭空编造的谎言。
《如何确保你的科研数据真实可靠:从一个明星学者的数据欺诈事件学到的教训》
作者: 克拉斯·西茨马(Klaas )
译者:齐心
版本:新星出版社
2025年8月14日
在统计学家眼中,
“学术造假”意味着什么?
学术造假所引发的诚信危机,会对整个社会的信任度造成极大的冲击。作为统计学家,克拉斯·西茨马教授在参与调查并得出结论时,提出了学术造假的不同性质及其分类——其一,是没有经过实验收集数据,而是按照自己假设的理论去“造数据”,这一类属于道德和诚信问题,要全盘否定。另一类,则是很多学科的研究人员并没有学过统计学,在收集到原始的实验数据后,不知道自己所采用的统计和分析方式是否能最具有代表性,换句话说,每个发言的个体都认为自己无法被平均、被代表、被概括,而我们的研究则需要在不同的个体上得出共性,那么这个统计的数据样本是否能最大程度的代表这个人群,这个数据均值是否能得到更多样本中个体的认同,就有一个方法技巧和局限性的问题了。
例如,网上发布的统计局的数据,为什么和我们的感受不一致?以至于评论区留言最多的是——“这又是36计中的哪一计”,看来,统计口径和方法,不仅仅是数学问题,也是政治问题和社会问题。我们所熟知的人均收入的数据发布,每次都能收获无数的口水和烂番茄、臭鸡蛋,但在将收入中位数这个概念引入之后,似乎比平均值的骂声就小了很多,然而,收入平均值和中位数,哪一个更科学、更接近真实?统计学家相信算法公式,而普通人只知道自己的直觉和感受,在书中,作者在这里普及了“P值”这个概念,也就是P值差异超过0.05、甚至只有0.01或者0.005时,就会引发信任危机。这包括选择样本时,需要注意的方差,也包括处理个别极端数值,比如网上常举的“我和马云一平均,都是年入千万”例子。
样本的选择只能是大多数人的生存状态,合理选择是应该去掉极端数值。同时,在样本数据按照统计方法无法得出“显著”的结论时,也就是P值大于0.05时,意味着你所选择的样本数据结果无法有力支持你的论文观点,这时候,如果你选择修改数据源、更换有利于自己的数据样本,那么,“造假”的帽子就结结实实地戴上了。完全吻合的数据结果,一般只有在排除了各种干扰的实验室里才能产生,自然环境中总有偏差,不完美的数据结果和结论,往往才更符合实际。
韩国电影《举报者》剧照。
数据一直是简单的,
复杂的从来都是人
荷兰研究理事会2022 年的全国调查显示,62% 的研究者承认曾“选择性报告符合假设的结果”(通俗点说,就是报喜不报忧),48% 的人会 “在看到数据后调整研究假设”。这些被视为“灵活处理”的操作,实则已触碰科研诚信的红线。所以,在C刊论文数量的科研考核模式里,“非升即走”的竞争压力往往会逼得科研人员走入“隐形陷阱”。
2016年,威彻茨()等人在《前沿心理学》发表的研究指出,34% 的心理学论文存在“p 值操纵”—— 通过反复调整分析方法,让原本不显著的结果变得显著。这也就是公众对今天的专家(砖家)和教授(叫兽)缺乏信心,认为其丧失道德底线的诱因。本来,个体的体感差异就会对样本数据的结果提出挑战,而经过操纵的样本数据所得出的结论,就更难令人信服。
当然,也有一部分“失误”是“新手”无意为之。克拉斯·西茨马教授在审查数百篇论文后发现,80% 的研究错误源于对统计工具的误读和错误使用,而非恶意造假,但问题是,在公众看来,这同样也是科研诚信的丧失,因为公众无法得知科研人员是否有主观造假的意愿,但习惯于将事情往最坏的方面考虑,这也是流行的“底线思维”影响的结果。
阿姆斯特丹大学心理学系曾有一项研究试图证明“性别与数学能力存在关联”,研究者在分析120 份样本时,剔除了 12 个“异常值”—— 这些数据显示女生数学成绩优于男生。调整后的数据果然呈现“男性成绩显著更高”的结果,并发表在某知名期刊上。但事后第三方用完整数据重新分析,却发现所谓“异常值”恰恰反映了样本的真实分布,剔除它们纯属研究者对“极端值处理原则”的误解。这种因统计无知导致的结论偏差,在书中被称为“善意的谎言”,却可能比恶意造假造成更广泛的误导。更常见的错误出现在数据处理环节:范・京克尔2010 年对人格心理学论文的调查显示,53% 的研究者使用 “列表删除法” 处理缺失数据(直接删掉含缺失值的样本),却未检验这种方法是否会扭曲数据分布,从而导致结论出现系统性偏差。、
韩国电影《举报者》剧照。
最后,克拉斯·西茨马教授在书中给我们提出了一套“数据诚信生存指南”。首先,完善预注册制度。研究者需在收集数据前,将研究假设、方法和分析计划上传至开放科学框架(OSF)等公共数据库,同时,作者在数据收集前需要通过同行评审,无论结果是否显著都予以发表,增强了研究的可信度。其次,开放数据。数据不是私产,而是科学共同体的公共资源。《心理科学》2014 年开始强制要求作者公开原始数据,结果发现 38% 的 “突破性研究” 因无法提供完整数据被撤回。2016 年,威彻茨团队调查发现,要求公开数据后,论文中统计错误的修正率从12% 升至 47%。最后,实行“统计咨询强制制”—— 所有科研项目申请必须包含统计专家的审核意见。斯塔佩尔事件之后的蒂尔堡大学,在实施3 年“统计咨询强制制”后,论文因统计“失误”被撤回的比例下降了54%。
数据一直都是不变的、最简单的,而复杂多变的从来都是人。在这本“数据生存手册”中,克拉斯·西茨马教授揭开了学术论文背后的数据江湖。毕竟,科学的伟大不在于永不犯错,而在于敢于直面错误。或许你曾为了“显著结果” 反复调整分析方法,或许你因“样本不够”而犹豫是否要“优化数据”,或许你从未想过自己信赖的统计软件会给出误导性结果,但正如书中所说:“科研诚信不是道德枷锁,而是让数据说话的底气。”斯塔佩尔在法庭上的忏悔令人唏嘘:“我创造的不是知识,而是学术界想要的幻想。”这句话戳中了科研生态的痛点——当“发表数量”压倒“研究质量”,当“完美结果”比“真实过程”更受追捧,科学的本质正在被异化。
作者/李杰