药物设计之路：从“晴朝采药寻源去”到“闭门研药笔下来”

YXG 科普最前线

目录：

0. 引子

1. 药物研发的几种方法

2. 药物设计背后的分子机理

3. 数学和物理登场

3.1 最佳药物 <=> 最优化问题

3.2 计算量太大？密度泛函理论帮你简化

4. 忘掉物理回归数据 —— 机器学习算法

5. 药物设计之后

0. 引子

中药是我国传统文化不可或缺的一员——中华文明历经上下五千年，中药虽未曾经历沧海桑田，却也不动声色扮演者这五千文明的见证者。尽管和现代医学的部分理论有些出入，中药在我国依然有着众多的追随者。想想一下这个场景：当一位临近耄耋之年的老中医拄在火炉前，对着煎药砂锅重复着文火一刻钟、武火十分钟、每两分钟搅拌一次的操作，并颤巍巍把一碗热乎乎的中药端到你面前时，这药的价值便不仅仅是药效，更是一种文化和传承。

煎药的学问其实和泡茶有几分类似，b 格往往更加重要。图片来自 https://zhuanlan.zhihu.com/p/31561620

最经典的中药百科全书莫过于李时珍编撰的《本草纲目》。明朝时期，由于世界上还没有哪个国家把化学和医学联系在一起，因此李时珍只好采用以身试药的方法对中草药进行研究。《本草纲目》原始本记载药物近两千种，附图千余幅，耗去了李时珍二十七年的年华。古人不长命，二十七载已近半生岁月，这半生岁月散布在无数个寻药、采药、煎药、尝药的昼夜循环春夏交织，凝结成两个字，便是经验。经验奠定了中医“越老越吃香”的传统。

或许是为了表示对李时珍等中华名医的尊重，在一些 RPG 武侠游戏中，一些药物的价格甚至超过了该游戏中最顶级的装备，让玩家一生不忘吃药。

某 RPG 游戏中最贵的药品（左图）和最贵的装备（右图）对比

这种理念其实颇为前卫，因为在现实生活中，如果被检查出什么不治之症，搞不好就要砸锅卖铁了，再顶级的传家宝也得砸进去。

不过从另一方面看来，随着现代医学的发展，传统中医药的科学性开始渐渐受到人们的质疑，例如在美国，中医暂时只被当做替代医学（Alternative Medicine）的一种手段。其中一条主要质疑在于，传统中医药理论缺乏化学基础。例如《本草纲目》通过五性（寒热温凉平）五味（辛咸酸苦甘），以及毒性大小来描述药物的性状，但这样的言语显然无法描述药物的化学式、有效成分及物化性质等，难以纳入现代药物动态学和动力学（PK/PD，pharmacokinetic/pharmacodynamic，后文会继续提到）的理论框架。

传统中药与现代药品间的差异

随着生物技术的发展，以及人们对医疗健康领域的日益关心，药品从设计到投入市场的流程绝不仅仅只是凭个人经验说了算。现代药物的设计普遍需要借助计算机的帮助，因此要想理解现代药物是如何开发出来的，我们需要对药物背后的机制有一个大概了解。

1. 药物研发的几种方法

我们知道，每种中药都有其有效成分，而药物开发的其中一种途径便是把这些有效成分提取出来，这便是天然提取物。著名的天然提取药物有抗疟疾的青蒿素、抗肿瘤的紫杉醇、治疗老年痴呆症的石杉碱甲等等。

天然提取物自然有诸多好处，这从许多保健品里标榜的各种植物成分中可见一斑——人们或多或少地相信，天然的产物大多是无公害的，并且含有非常丰富的营养成分。

几种热门的天然提取营养保健品（螺旋藻、西洋参、葡萄籽和芦荟胶）

不过天然提取物也有一些弊端：其一，提取后的产物依然可能含有不明杂质，难以对样本做出科学分析；其二，提取成本较高，就好比在一些学校食堂里的“土豆烧排骨”这道菜中挑取排骨，很可能排骨数量还比不上茴香八角。

此外，另一种方法比较新的方法则是通过改变细菌等微生物的基因，来让这些微生物生产出自然界中没有或很少出现的活性成分，基于这些活性成分生产出的药叫做生物药。关于生物药的更详细的资料可以参考小编的文章《朋友，这种药你见过吗？》。

第三种方法也是用得最多的方法，那就是通过化学合成的方式来获取新的药物。这也是本文讨论的重点。为了理解化学药物合成的途径，我们需要对药物背后的分子机理。

2. 药物设计背后的分子机理

开发一种新药的流程虽然十分繁琐，但药物设计的根本思想却十分直接——从根本上说来，无非就是弄清楚两种分子（药物分子和它作用的靶标）之间能否相互结合、结合强度如何以及以何种形状相结合。这个过程又叫做分子对接（Molecular Docking）。

药物中的有效分子通过和靶标蛋白相结合，从而产生药效。这种结合方式和酶的作用原理有一些相似之处，同时也解释了为什么药剂量提高，药效不一定越强

再厉害的神枪手也需要靶子来自证实力，因此在设计出药物的有效成分分子之前，我们需要确定靶标蛋白（target protein）。例如具有抗肿瘤作用的紫杉醇，其靶标是在细胞有丝分裂中，负责将染色体拉向细胞两级的微管（microtubule），从而起到抑制肿瘤细胞有丝分裂的作用。在中学生物课上提到过，秋水仙素也有抑制细胞有丝分裂的作用，但秋水仙素的机理在于促使微管分解，会误伤正常人体组织，因此具有剧毒性；而紫杉醇则是通过防止微管生长的方式抑制有丝分裂，因此它对分裂异常的肿瘤细胞具有奇效。

确定好靶标以后，应该采用什么箭矢呢？要知道，生命体内的靶标比靶场的靶标复杂多了，光靠大力出奇迹是不行的，必须要正中红心。要想正中红心，确定药物的有效成分（以下简称为“药物分子”）便成为了药物设计过程的重中之重；而要想确定药物的有效成分，第一步自然是给这种药物取个高大上的名字——设计出药物分子的化学式。

然而光知道药物分子的化学式依然不够，就好比全国叫“郭美美”人有很多，既炫富的网红，又有唱《不怕不怕》的歌手，她们除了同名同姓，身高体重工作年龄各不相同。除了化学式以外，药物分子的构象结构（conformational form）则告诉了我们分子的“身高体重工作年龄”这些指标，每种构象同靶标蛋白的结合方式都各不相同。

我们以著名的血红蛋白为例。由于氧气不溶于水，氧气在我们体内的传输需要依靠血红蛋白（Homoglobin）帮忙。血红蛋白碰到氧气女神后，内心未免荡漾，从而它身体的某部分发生了结构性改变。和人类一样，血红蛋白精力也是有限的，它最多只能同时勾搭四个氧气分子，并且它和几个氧气之间的亲密度也会受到七大姑八大姨（血液酸碱度）的影响。

血红蛋白的两种不同构象：左图为单纯的血红蛋白，右图为“春心荡漾”后的血红蛋白

于是我们不难想象，药物设计的目的便是要找到药物和目标蛋白之间最优的结合方式。如此一来，药物设计的问题就变成了一个数学上的最优化问题。

3. 数学和物理登场

小编友情提示：本章要求读者对理论力学和统计力学有一定了解。不熟悉的读者可以直接跳过，不影响下一章的阅读。

3.1 最佳药物 <=> 最优化问题

一听到“最优化问题”几个字，数学家们就乐开了花。他们心想，自己所研究过的各种优化算法总算可以派上用场了。

算法好比利器。武器已经有了，还需要一个具体的待优化函数，否则再锋利的利器也只是杂耍表演中的道具。对于分子而言，我们可以用能量或者熵来表示这样的待优化函数，例如常用的函数有对接自由能（binding free energy），动力学常数（binding kinetics），共形熵（configurational entropy）等等。这些待优化函数拥有不同的起源，因此在具体选择应视情况而定。

在本文中，我们选取对接自由能作为待优化函数，因为在它的表达式中，所包含的药物化学信息最为丰富：

其中 i，j 分别代表药物分子和靶标蛋白分子的原子序号；A 表示其他各种可能的作用势，例如溶解后产生的额外离子键、电子分布带来的偏离势能等等

事实上，上面的对接自由能只是众多取法中的一种。例如为了数学上的优美性，上图中描述分子间作用采取了著名的兰纳-琼斯势（又名 6-12 势，描述范德华力的一种势能）。

不过就算做了这种简化，由于药物分子和靶标蛋白都可能是大分子，物理学家们依然认为这样的公式计算量太大，需要做进一步近似（小编注：在很多情况下，这都是理论数学家鄙视应用数学家或物理学家的一个重要原因）。一种著名的近似方法叫做密度泛函理论（Density functional theory），该方法直接通过电子的分布函数来刻画药物分子和靶标蛋白之间的作用势，从而跳过了对每对电子求和的过程，大大提升了计算效率。

基于待优化函数的来达到药物设计和分子对接分析得软件有不少，最出名的一个大概就是 Autodock Vina 了。该软件利用现代计算机的多核多线程架构，对计算效率进行了很大的优化。

3.2 计算量太大？密度泛函理论帮你简化

除了分子对接以外，密度泛函理论在计算化学和凝聚态物理领域也有着非常广泛的应用，许多纳米材料的设计就是通过该理论实现的。密度泛函理论的提出者沃尔特·科恩（Walter Kohn）也因此获得 1998 年诺贝尔化学奖。

虽然从数学形式上看来，密度泛函理论（右）反而增加了复杂性。不过值得注意的是，右式中的自由能只依赖于 ρ ，也就是电子的分布函数，而并不需要把所有原子对之间的相互作用都考虑进去。

虽然密度泛函理论获得过诺贝尔化学奖，但在实际应用中，它依然存在诸多不足之处，其根本原因在于该理论主要是一个计算模型，只是对实际情况的一个近似。例如在分子尺度上，交互作用势（exchange-correlation potential）是密度泛函理论中至关重要的一项，该项是由于电子之间的特殊相互作用产生的——简要说来，由于电子是费米子，需要满足泡利不相容原理，这就给不同电子之间纠缠状况的估计带来了很大的难度。

值得一提的是，量子纠缠是量子力学区别于经典力学的一个重要性质。历史上，不同大佬级物理学家（例如爱因斯坦、玻尔、薛定谔、约翰·贝尔等人）在对 “量子纠缠” 的本质理解上产生过多次交锋。这个问题超出了本文范畴，小编就不再深入介绍了。

电子之间的“交互作用势”引起的铁磁性——反铁磁性相变。图片来自 [2]

4. 忘掉物理回归数据 —— 机器学习算法

熬过第三章以后，也许许多读者内心是这样的：

不必担心，我们还有更加简单的方法可以直接绕过复杂的物理建模和数学推导 —— 机器学习。

无论是各种待优化函数也好，还是密度泛函理论也好，它们本质上都需要对分子背后的物理通有深刻的理解。然而另一方面，物理实验告诉我们，这两种方案都存在准确性欠佳的问题 [3, 4]，这在高标准严要求药物设计领域是不够的。

自从大数据时代来临以后，生命科学领域能搜集到的数据量正在呈指数级别上升；与此同时，随着生物技术和计算机硬件性能的提升，处理这些海量数据亦不再是难事。例如，就在上世纪 90 年代还需要耗时十余载基因测序项目，近年来随着新一代测序技术（NGS, next generation sequencing）的发展，一天内即可搞定 [5]。基于此，人们自然会问：有没有办法跳过复杂的物理细节，直接通过数据科学本身找到答案呢？

首先，让我们返璞归真，回到 3.1 小节中的表达式：

我们在 3.1 中提到过，待优化函数有各式各样，复杂度可以高得令人发指。不过事实上，无论待优化函数如何复杂，它们本质上都可以简化为简单的线性求和形式：

其中 x_m 表示不同的项，w_m 表示权重参数

如果觉得线性求和不够高大上，那就干脆直接写成非线性形式，这样数学上看起来反而更简洁：

$score = f(\mathbf{x}_1, \mathbf{x}_2, ... ,\mathbf{x}_m)$

有了公式，那么和蛋白质相关的数据从哪来呢？事实上许多蛋白的数据都可以在 PDB （Protein Data Bank）数据库中找到，这些数据的扩展名为 ".pdb"，里面包含了蛋白质的一级结构（氨基酸序列信息）、二级结构（局部拓扑结构，包括 α-螺旋和 β-折叠层）和三级结构（整体三维结构，用不同原子的三维坐标表示）。例如 A 型血红蛋白的某种构型，可视化以后如下图所示：

图片来自 [6]

现在我们有了一个特定的函数，以及大量备用的输入（已有药物蛋白和靶标蛋白额的 pdb 数据）和对应的输出数据（通过实验测出的药物蛋白和靶标蛋白之间的“匹配度”，例如相关性、均方误差等等），于是就可以采用各种机器学习算法了，无需考虑分子间的自由能等等。机器学习算法种类众多且各有特色，小编会在以后的文章中详细介绍。（小编注：“机器学习”这个词语并没有任何高大上之处，它本质上只是所有通过数据建立模型的方法而已，并不值得过度鼓吹。相比起“机器学习”，小编更喜欢使用“数据驱动建模”这个词语）。

“机器学习”本质上就是通过数据创造模型。这样创造出的模型纯粹依赖于数据本身，可以无视物理学本质的存在

由于完全依赖于数据本身，当我们得到了一个全新的模型以后，我们自然会对它的可靠性产生怀疑 —— 就好比养小孩，万一天天都给小孩喝三鹿奶粉，如何保证这个小孩不长残？同样的道理，如果我们不巧采用了不好的数据来源，就会对模型的预测能力造成很大影响。基于这个考虑，我们总是需要对模型进行模型验证（model validation）。最常用的模型验证方法大概就是交叉验证（cross validation）了，不过无论采用何种验证方法，该方法总会产生出一个分数值，用来评判这个模型的好坏。

模型验证完毕后，该如何使用它们来设计药物呢？模型的使用主要有两个途径 —— 其一，通过最大化药物分子和靶标蛋白分子间的“匹配度”，直接预测出新的药物分子的三维结构。这个途径又叫做结构型药物设计（structure-based drug design）；其二，通过已知药物分子的结构，在现有的分子库存中找寻出与它最接近的一种分子。这个途径又叫做配体型药物设计（ligand-based drug design） [4]。

5、药物设计之后

虽然在技术层面，我们对药物设计的过程已经有了一个较为全面的理解。然而药物设计只是药物开发的其中一个环节。在药物设计完成之后，还有众多任务需要完成：

1. 药物的化学合成（生物药不在本文讨论范围中）；

2. 药物初步分析（基于细胞的实验阶段）；

3. 药物第二次分析（融入更复杂的代谢状况）；

4. 临床实验四个阶段（毒理性、药物动力学分析，逐步增大试验规模）；

5. 药监局许可（这个难度最高）。

上面每一步都需要耗费不小人力和物力，每一步都不比药物设计本身容易。也许有人会对为什么药物开发需要那么复杂的流程产生疑惑 —— 看看咱们中药的开发，不就是背个背篓拄根拐杖爬爬山拔拔草的事么？遇到拔不动的草最多再准备把锄头别把小刀就完事！

事实上，这是由于“药”这个物品的特殊地位造成的，这表现在三个不同方面。其一，药物的化学性。俗话说，是药三分毒，因此一种药物设计出来以后，必须对它的毒理性有一个充分的认识；其二，生理学的复杂性。在临床试验阶段，不同病人的生理状况各不相同，他们对药物的反应也不尽相同，这在很大程度上增加了药物动力学分析的难度；其三，社会原因。药和食物一样都是日常消耗品，但其不稳定因素却远大于后者。一种药物一旦被发现存在某种问题，如何消除负面影响是一件很难的事情，远比汽车或家电的召回处理要复杂。

由此可见，虽然数学、物理学和计算机科学等基础学科能在药物设计过程中起到核心作用，不过由于生命科学和社会反响两方面的复杂性，这些基础学科只在整个药物开发的流程中占到很小的一个环节。尽管近数十年来，生命科学和计算机科学都有着爆炸性的发展，但由于药物开发中总是伴随着各种不确定性，使得许多最前线的科技无法在这个行业中得到充分体现 —— 毕竟医者父母心，药物虽然没有生命却也秉承着医者的传统，需要具有人道主义光环。要达到这一点，则需要不同行业之间的协力配合。

参考文献：

[1] Du, Xing, et al. "Insights into protein–ligand interactions: mechanisms, models, and methods." International journal of molecular sciences 17.2 (2016): 144.

[2] https://staff.aist.go.jp/v.zayets/spin3_47_exchange.html.

[3] Cohen, Aron J., Paula Mori-Sánchez, and Weitao Yang. "Insights into current limitations of density functional theory." Science 321.5890 (2008): 792-794.

[4] Lima, Angelica Nakagawa, et al. "Use of machine learning approaches for novel drug discovery." Expert opinion on drug discovery 11.3 (2016): 225-239.

[5] Behjati, Sam, and Patrick S. Tarpey. "What is next generation sequencing?." Archives of Disease in Childhood-Education and Practice 98.6 (2013): 236-238.

[6] http://www.rcsb.org/structure/1FN3.

往期精彩回顾：

如何科学地解读你的睡眠？

同一个细胞，不同的你

暗物质与暗能量之谜——宇宙大尺度的广义相对论！

麦哲伦环航地球真的能证明地球是圆的吗？拓扑学告诉你答案！

一个极易被低估的数学定理，以及三种不同的证明方法

献给热爱运动的你——三种常见腿部损伤及其处理

让GPU也参加到计算中来

以吃货的名义，为你还原一个你不知道的苏东坡

继续滑动看下一个