张忠元:冰激凌销量提高,溺水量也增加,但你要分清“相关”和“因果”

科技工作者之家 2020-11-17

1月26日“我是科学家”将举办第八期演讲活动

“ 嘘,真相原来是这样! ”

本期演讲嘉宾 张忠元

中央财经大学统计与数学学院教授、博士生导师

《渣男受女生欢迎?当心统计陷阱》

中央财经大学统计与数学学院教授张忠元完全掩饰不住对自己专业的热爱。在他看来,社交网络上很多轻易的结论,都可以用统计学抬个杠。看到热映电影及随之而来的“渣男受女生欢迎”,他会反思其中的统计陷阱,“ 这是典型的‘生存者偏差’,而且没有注意控制变量 。”

(花心、劈腿、撒谎……为什么渣男都这么渣了,还会有姑娘喜欢?)

“大数据时代,让我们有机会能够收集到多元的、时变的和大规模的数据。”但是,拿到这么多数据,要怎么用,怎么决策?

“统计学就是为各个领域提供工具的方法论——要想得到结论,你必须得基于证据得出结论,要想拿到证据,你就得不可避免地进行数据分析,就不可避免地要用到统计学。”

(大数据时代,数据分析几乎是人人必备的技能。图片来源:Pixabay)

在张忠元看来,很多令人意外的结论都跟统计学有关,比如各个领域里边都会有的“相关和因果”问题。

“比如说,夏天,如果溺水量提高了,那么你冰激凌卖得也好,你可能是冰激凌卖得好的话,溺水量就会增加,因为夏天都游泳,所以你可以把冰激凌卖得好坏作为一个指标来衡量,这个时候我要小心一点了,那个地方可能要溺水了,是不是溺水要增加——直观上就这意思,一看到冰激凌卖得好了,我可以把它当做一个指标,然后我要增加预防一下了,这是相关,你可以这么用,把它当成一个指标。”

(冰激凌销量提高,溺水率也增加,但你要分清“相关”和“因果”。图片来源:Pixabay)

但是, 区分“相关”和“因果”的重要性体现在:不能以此草率地做决策 。“你不能说冰激凌卖得好了,那边溺水量就增加了,那我就禁止卖冰激凌——可是,你禁止卖冰激凌了,那边还是会溺水增加,所以你要把‘相关’和‘因果’区分开。你知道了什么原因会导致什么结果,你才能够做决策。”

1月26日,欢迎来到77剧场,听统计学者张忠元老师聊聊统计学里那些令人意外的故事。