你被骗过吗?7 种操纵数据的方式,第 7 种让无数人中招

科技工作者之家 2019-09-13

​​撰文 | Winnifred Louis & Cassandra Chapman
翻译 | 杨晚钰

审校 | 夏烨

来源:科研圈

数据统计和分析是每个科研人员都应具备的技能,希望本文能帮助初学者避免无意中犯错,并让你在看到故意扭曲的统计结果时,第一时间识破作假者的伎俩。

图片来源:Carlos Muza on Unsplash 

统计能够有效地呈现数据,便于我们理解周围世界中的模式。但如果凭直觉解释这些模式,结果通常会令人失望。以下是统计、概率和风险分析中常见的几种错误,以及避免这些错误的方法。

01 无意义的差异

股市的很多日常波动都只是偶然现象,并没有任何意义;在民意调查中,某党领先的一两个百分点通常也只是数据噪声而已(在给定的数据样本或公式中,出现的难以解释的变化或随机性)。

为避免对这种数据波动的原因作出错误的推论,可以查看它们的“误差幅度”。差异如果在误差幅度内,则很可能无意义,这种变化很可能只是随机波动。

02 来自现实印象的误会

 我们常会听到对两个群体差异的笼统概括,比方说女性更乐于抚育后代,而男性体格更强壮。这些结论通常受到刻板印象和民间说法的影响,却忽视了两个群体的相似之处,以及同一群体内部的差异。

如果随机挑选两个男性,他们的体能可能相差很大;如果随机挑选一男一女,他们抚育后代的表现也可能非常相近,男性的表现甚至会更明显。

要避免这样的错误,你可以查看两组的“效应量”(effect size)。它可以反映两组间平均数的差异。如果效应量小,说明两组相似度高。但即便效应量大,也可能是较大的组内差异导致的,因此不能断定两组间的所有个体都存在差异。

03 忽略极值

考察对象服从正态分布(也称“钟形曲线”)时,效应量的两端是有重要意义的。在正态分布下,大多数个体接近平均值,只有一小部分个体远高于或远低于平均水平。

这种情况出现时,组内的微小变化都会导致差异。这种差异对平均值几乎没有影响,但可能会完全改变极值的特征(见第二点)。

要避免这个错误,需要仔细考虑是否要研究极值。若是针对平均水平进行研究,通常不用在意组内的细微差异。但若非常关注极值,这些细微差异将会影响巨大。

当研究对象服从正态分布时(在钟形曲线上),极值处的差异比平均值附近更为明显(表现在分布曲线上为:极值处的重叠区域较少,而平均值附近有大部分重叠)

04 相信巧合

美国每年淹死在游泳池里的人数和尼古拉斯·凯奇(Nicolas Cage)出演的电影数存在相关性,你知道吗?

如果你观察够仔细,就会发现这种有趣的模式和相关性,但这也仅仅是巧合而已。仅仅因为两件事同时发生变化,或者具有相似的变化趋势,并不能说明它们有关。

要避免这一错误,需要思考观察到的相关性在多大程度上是可靠的。这种相关性是一次性的,还是多次出现的?未来的相关性又能否预测?如果这种相关性只出现了一次,那它很有可能是随机的结果。

05 因果倒置

举例来说,假如失业和心理问题存在相关性,你很容易注意到其中“明显”的因果关系——心理问题会导致失业。但有时因果关系恰恰相反,比方说是失业诱发了心理问题。

要避免这一错误,可以在发现相关性时提醒自己思考反向因果关系。这种影响从相反方向推测可以成立吗?还是说两者相互作用,形成了一个环形反馈?

06 第三种因素

人们常常会忘记对可能的“第三因素”(也称外部因素)进行评估。某些情况下,两件事情的相关性是由第三因素引起的,它们实际上都是第三因素的结果。

举例来说,假设下饭店和更健康的心血管系统间存在相关性,这会让我们相信两者间存在某种因果关系。然而结果可能是,能经常下饭店的人社会地位更高,负担得起更好的医疗保健服务,而这种医疗保健服务才是他们心血管系统更健康的原因。

要避免这一错误,别忘了在发现相关性时考虑第三因素。找到事件 A 的可能的原因 B 时,反过来想一想,会不会是外部因素 C 导致了 B?C 会导致 A 和 B 同时发生吗?

07 修改坐标轴

 在对图表的纵坐标进行缩放和标注时,会出现很多迷惑人的地方。纵坐标刻度应当将统计对象有意义的数据范围完整地呈现出来。但有时,制图者为了夸大细微差异和微弱的相关性,会缩小纵坐标的刻度范围。

从下图可以看出,当纵坐标刻度范围为 0~100 时,两个柱图看起来差不多高。但若将刻度范围设置为 52.5~56.5,它们看起来就截然不同了。

要避免这一错误,可以注意观察坐标轴刻度。对于那些没有刻度的图表,更要持怀疑态度。 

本文经授权转载自微信公众号“科研圈”,点击文末“阅读原文”可查看原文。

特 别 提 示

1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。

来源:fanpu2019 返朴

原文链接:http://mp.weixin.qq.com/s?__biz=MzUxNzQyMjU5NQ==&mid=2247486728&idx=2&sn=bb631dcd2e4128bf8901103ac07855a5&chksm=f9992664ceeeaf72e8bf3ae6fe8921499834fa8b6403e32a41434e762faeaeb1bd46b4c2ce95&scene=27#wechat_redirect

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

返朴 相关性分析

推荐资讯