侦破霍乱起因:用工具变量识别病原体

科技工作者之家 2020-02-08

来源:和乐数学

侦破霍乱起因:用工具变量识别病原体

医学史上的很多里程碑式的发展成果都与特定病原体的识别有关。十九世纪中叶,约翰·斯诺发现被粪便污染的水导致霍乱。(后来的研究发现了更具体的病因:霍乱杆菌会引起霍乱。)这些杰出的发现蕴含着一个幸运的巧合-其原因与结果恰巧是一对一的关系。霍乱杆菌是霍乱的唯一原因;或者,用我们今天的话来说,霍乱杆菌是霍乱的充分必要因。如果你没接触过霍乱杆菌,你就不会得病。

1853 年和 1854 年,英格兰陷入了霍乱疫情的泥沼。在那个年代,霍乱就像今天的埃博拉病毒一样可怕;一个健康人若不小心喝了被霍乱细菌污染的水,他在 24 小时内就会死亡。我们今天知道霍乱是由一种攻击肠道的细菌引发的。这种细菌通过被感染者的米汤样排泄物传播,患者在死前会频繁腹泻,进一步扩大细菌传播范围。

但在 1853 年,还无法用显微镜看到任何疾病的致病菌,更不用说霍乱病菌了。一种普遍观点认为,是空气中的“瘴气”引起了霍乱。伦敦一些较贫困的地区环境卫生较差,同时霍乱疫情也更猖獗,这一事实似乎支持了该理论。 

约翰·斯诺医生治疗霍乱病人的经验超过20年,他对瘴气理论一直持怀疑态度。他合理地指出,由于症状表现在肠道,患者首先接触到病原体的部位一定是肠道。但是,因为无法用眼睛捕捉到元凶,他也没有办法证明这一点 —— 直到 1854 年霍乱爆发。 

约翰·斯诺的故事有两个版本,其中一个较为有名,我们可以称之为“好莱坞”版本:他煞费苦心地挨家挨户记录霍乱患者死亡的地点,注意到有一大群患者住在宽街的一处水泵附近。通过与居住在该地区的居民交谈,他发现几乎所有的受害者都从这处水泵中取过水。他甚至了解到,在距离此地很远的汉普斯特德有一起霍乱致死的案例,其中一名死去的女性患者特别喜欢从这处水泵中取水,她和她侄女都在喝了宽街的水之后得霍乱死了,而她所在的地区再没有其他人得霍乱。汇集所有这些证据之后,斯诺要求地方当局拆除水泵手柄,当年的 9 月 8 日地方当局同意了。正如斯诺的传记作者所描述的,“水泵手柄移走了,瘟疫也得到了控制。”

所有这一切构成了一个精彩的故事。如今,约翰·斯诺社团甚至每年都要进行著名的水泵手柄拆除表演作为纪念。然而在真实的历史中,拆除水泵手柄对全市霍乱疫情几乎没有产生什么实质性的影响,这一流行病在此之后继续夺去了近 3000 人的生命。 

在非好莱坞的故事中,我们仍然可以看到斯诺医生奔波于伦敦街道上的身影,但这次他真正的目标是找出伦敦人从哪里取水的。当时伦敦有两家主要的供水公司:索思沃克和沃克斯豪尔公司(索沃公司)以及兰贝思公司。正如斯诺了解到的,两家供水公司的关键区别在于前者是从伦敦桥区域抽水,其位于伦敦下水道的下游。而后者在几年前已拆除了其位于下水道下游的进水口,转而在上游建了新的进水口。因此,索沃公司的客户得到的是被霍乱患者粪便污染了的水。而兰贝思的客户得到的是没有污染的水。(两者都与受污染的宽街用水无关,宽街的水来自一口井。) 

死亡率统计数据证实了斯诺令人担忧的猜想。霍乱在索沃公司供水的地区尤为猖獗,死亡率比其他地区高了八倍。即便如此,这一证据也只是间接证据。瘴气理论的支持者可能会辩驳称,瘴气在这些地区是最严重的,而这一点是无法证伪的。此例的因果图如图所示。我们无法观测混杂因子 “瘴气”(或其他可能的混杂因子,比如“贫困”),所以我们不能用后门调整来控制变量。 

20200208220710_e33954.jpg
霍乱的因果图(发现霍乱杆菌之前)

斯诺自有妙招。他注意到,在两家公司共同服务的地区中,由索沃公司供水的家庭,死亡率仍然要高出许多。而这些家庭在瘴气和贫困方面与该地区的其他家庭没有什么显著区别。“由两家公司共同供水的地区的情况最能说明问题”斯诺写道。“两家公司的管道都通向所有街道,进入几乎所有的院落和小巷......。无论贫富,无论房子大小,两个公司都提供自来水服务;而接受不同公司服务的客户,他们在生活条件或职业方面也无明显分别。这就好像在还没出现“随机对照试验”概念的时候,供水公司就已经对伦敦人进行了一次随机化试验。事实上,斯诺也注意到了这一点:“再设计不出比这更好的试验,能彻底检测供水对霍乱的影响,整套试验设计就现成地摆在研究者面前。多达 30万不同性别、年龄、职业、阶层和地位的人,从上流人士到底层穷人被分成两组,他们不仅不能主动选择,而且大多数情况下对这种选择毫不知情。”一组人得到了干净的水,另一组得到了被污染的水。 

斯诺艰辛的调查工作证实了两个重要的假设:

(1)“霍乱”和“供水公司”之间没有箭头(二者是独立的),

(2)“供水公司”和“水的纯净度”之间有一个箭头。

此外斯诺没有做出明确说明,但同样重要的第三个假设是:

(3)“供水公司”和“霍乱”之间没有直接箭头,这在今天是显而易见的,因为我们知道供水公司不可能通过其他渠道将霍乱病菌输送给客户。

20200208220710_e4bfde.jpg
引入工具变量之后的霍乱因果图

满足这 3 个属性的变量,今天称之为工具变量(instrumental variable)。显然斯诺认为这个变量类似于抛硬币,它模拟一个没有箭头指向的变量。由于“供水公司”与“霍乱”的关系中不存在混杂因子,任何观察到的二者之间的关联都必然是因果关联。同样,由于“供水公司”对“霍乱”的影响必须通过“水的纯净度”,由此我们可以得出结论(与斯诺的结论一致),观察到的“水的纯净度”和“霍乱”之间的关系也必然是因果关系。斯诺毫不含糊地陈述了他的结论:如果索沃公司将其进水口移到上游,那么它本可以挽救1000多人的生命。

当时几乎没有人注意到斯诺的结论。他将结论自费印成小册子,但总共只卖出了56份。如今,流行病学家将他的这本小册子视为这门学科的奠基性文献。它表明,通过“鞋革研究”和因果推理,我们确实可以追查到问题的根源。

尽管在今天,瘴气理论已经不足为信,但贫困和地理位置无疑仍是重要的混杂因子。但是,即使不去测量这些变量,我们仍然可以借助工具变量来确定,通过净化水质,供水公司能拯救多少生命。

现在解释一下工作变量是如何起作用的。为了简化说明,我们用变量 代具体的变量名称,并重新绘图。图中标示了路径系数以表示因果效应的强度。这意味着我们假设变量都是数值变量,且变量的相关函数是线性的。请记住,路径系数表示让增加一个标准单位的干预行动将导致增加个标准单位。

20200208220710_e837fd.jpg
工具变量的一般设置

由于和之间不存在混杂,对的因果效应()可以根据 估计出来,其中是在上的回归线的斜率。同样,变量和的关系也未被混杂,因为路径被处的对撞阻断了。因此在上的回归直线斜率()将等于直接路径的因果效应,即路径系数的乘积:。因此,我们有了两个方程:和。用第一个方程除以第二个,就会得到对的因果效应:。

通过这些步骤,工具变量许可了我们执行与前门调整相同的处理:在无法控制混杂因子或收集其数据的情况下估计 对的效应。据此,我们就可以向伦敦当局的决策者提议,供水公司必须将进水口建在下水道的上游 —— 即使那些决策者仍然相信瘴气理论也没关系。还请注意,我们所做的是根据因果关系之梯第一层级的信息(相关系数 和)推导出第二层级的信息(b)。之所以能够做到这一点,是因为路径图所体现的假设在本质上是因果关系,尤其是“和之间没有箭头”这个关键假设。如果换一张因果图,其中 是和的混杂因子,那我们就无法用公式  正确估计出  对  的因果效应事实上,无论数据样本有多大,任何统计方法都无法区分这两种模型。

在因果革命之前,人们就已经对工具变量有所了解,但是因果图以一种更清晰的方式表明它们是如何发挥作用的。尽管斯诺当时并未掌握上述估算因果效应的定量公式,但他实际上使用的就是引入一个工具变量的分析方法。

约翰·斯诺对霍乱的长期调查很少受到重视,在《柳叶刀》上刊登的关于他的的一段讣告甚至没有提到这一点。值得注意的是,《英国医学杂志》在 155 年后“修正”了这段讣告。在2003年的一份调查中,斯诺被选为英国历史上最伟大的内科医生。

来源:kelemath 和乐数学

原文链接:https://mp.weixin.qq.com/s?__biz=MzI2NjE0MTY0MA==&mid=2652719042&idx=1&sn=c2ae4b26520c8970d448b5a2ae4bd203&chksm=f17b4d65c60cc473921f65c2ae54fe4a59c72e77ef8631692aec9194cb288626ca198da20fb5#rd

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

霍乱 工具变量 识别病原体

推荐资讯