当AI开始寻找抗生素：人类终于摘取“高悬的果实”？

2020-03-12 10:04:06来源：亿欧

编者按：本文系投稿稿件，作者脑极体，版权归原作者所有。

抗生素带给人类的福泽，无论给出多少溢美之词都不过分。抗生素在应用初期，被人们认为是几乎“包治百病”的灵丹妙药，成为20世纪人类最伟大的成就之一。

（图题：感谢青霉素，给我回家路）

然而到了今天，全球每年约有50%的抗生素被滥用，在中国这一比例甚至接近80%。家有儿女的人们恐怕更有切身体验，只要孩子头疼脑热总要上医院打点滴，大多里面都使用了抗生素。人们对于“见效快”的执念所造成的直接后果就是让细菌更具抗药性，可能以往发挥作用的抗生素，会因为细菌抗药性的增加而失效。

对于抗生素寄予厚望的普通人可以会想：科学家只要找到比产生抗药性细菌的更强的抗生素就可以了。事实上科学家们确实是这么干，但抗生素的研究远非人们想象中那么简单。

那对更心急、更痴迷“银弹思维”的吃瓜群众来说，总是还想打破砂锅地问一句：有没有可能找到一种有效消灭大量有害细菌的抗生素呢？从生物规律上来讲，这有点痴心妄想。但目标总是要有的，万一接近了呢？

求瓜得瓜。2月20日，全球著名的自然科学类期刊《细胞》（Cell）发表了一篇题为“一种发现抗生素的深度学习方法”的研究论文，报道了麻省理工学院（MIT）的研究团队利用深度学习模型发现了一种超强抗生素——Halicin。经试验研究，这种新型抗生素化合物对多种耐药菌有杀菌效果，具有广谱抗菌效应。当然这一研究的亮点在于新的研究方法，即通过AI的深度学习算法从大型合成化学分子库中找到了这一独特的分子结构。

AI在药物研发上面的能力已经不是什么稀罕事，但发现抗生素还是第一次。好奇心一定会驱使我们继续追问下去：为什么人类研发抗生素的速度抵不过细菌抗药性的增长速度？AI开拓出抗生素研发的路径对于医学来说又意味着什么？

抗生素发现的谜题，为什么人类的路越走越窄？

从1928年，弗莱明发现第一种抗生素——青霉素起几十年间，此后科学家们又陆续发现了100多种抗生素。但从1987年起一直到2015年，整整28年间，人类却再也没有发现新的抗生素。

为什么新型抗生素的发现越来越慢，甚至出现了如此长的一段空档期？可以说，我们目前所使用的主要的几种抗生素都是四五十年代发现，且都是从土壤中的微生物种群中筛选和培养。大约99%的细菌种群之前是无法在实验室中单独培养，这一限制条件让人们无法单独分离出细菌生产的潜在的有效的抗生化合物。

从上世纪60年代以后，从微生物种群中寻找新的抗生素的速度明显放缓，取而代之的是“半合成抗生素”。如今以青霉素、头孢菌素为主体的β一内酰胺类抗生素，已经成为最主要的化学治疗药剂。

一直到2015年，美国科学家才发现了一种新型抗生素——泰斯巴汀（Teixobactin）。这一抗生素实现了抗菌药物领域的一大突破，可以杀死多种致命病原体，同时病原体很难对其发展出抗药性。这一科学进展得益于细菌培育技术的进步。研究人员通过一种称为iChip的电子芯片设备，可以将目标细菌分离并分别在比实验室更自然的土壤环境中生长，从而让只有1%成长机会的细菌提升到50%。

尽管如此，发现新的抗生素的效率仍然还是太低了，而且经过大规模投入培养出的抗生素很可能还是旧的抗生素，或者不具有很好的抗菌活性。那这次为什么AI就能做到呢？

窥斑见豹：新型抗生素探寻的AI新路径

由于传统的抗生素药物培育的低效，从大型合成化学文库的筛选抗生素分子结构成为一种新思路。但这些文库可能包含几十万到几百万个化学分子，但分子式的化学多样性有限，且无法反映抗生素分子可能的化学性质。一来是人工筛选的工作量极大成本过高，再则是面临难以验证化合物多样性的限制。

从分子库中筛选对某种细菌能够产生抑制性的分子，再去验证这些分子与已经应用的抗生素的差异。其中包括了海量的计算与重复实验，让这一办法对于人类研究者确实太不友好了。

但这次，AI作为一种新的研究手段引入对这些合成化学分子的筛查，让发现抗生素引来重大转机。研究人员提出了将结构分析和筛选相结合的思路，利用机器学习算法从分子性质中预测具有潜在抗菌性能的化合物。这一次大获成功。

首先，研究者以抑制某种大肠杆菌为目标进行筛选，选取了2335种FDA已经批准的药物分子或自然化合物分子，再以80%生长抑制率为标准，将它们分为有抑菌性和没有抑菌性两类，作为神经网络的训练数据集。

同时，他们采用了一种“有向消息传递深度神经网络”（DMP-DNN）的算法，将化合物的原子和成键等信息以连续向量的方式多次重复传递，从而获取更高级的表征结果。这一神经网络是通过自学习向量来表征分子，而不需要人为标注特定的分子结构。

有向信息传递网络能直接从分子的图结构预测分子的属性，经过固定次数的信息传递步骤，最终形成的分子的单个向量就可以进行对细菌的抑制率的预测。这种窥斑见豹的方式，大大的缩短了筛选路径，也降低了对于算力、时间等等成本的消耗。

（除了铜绿假单胞菌（底部蓝色）外，Halicin在几种耐药菌测试中，显示了良好的广谱抗菌活性）

随后，将训练过的深度学习模型应用到博德研究所的包含约1亿分子量的DRH化合物库中进行筛选，该模型从6111个正处于研究阶段的药物分子里，选出了99种最有可能存在抑菌性的化合物。

最后，经过实验结果证实，其中的51种能明显抑制该类大肠杆菌生长。从中选出了这种被命名为Halicin的化合物，因其低体内毒性和结构新颖性，成为最有潜力的新型抗生素。

此后研究者将在再次训练过的深度学习模型应用在了规模更大的ZINC15药物小分子数据库上，对约一亿化合物的预测和筛选，又发现了新的潜在的抗生素结构。而这一筛选过程，也仅仅只用了三天。

可见在深度学习的帮助下，6111个药物分子被筛选成99个，对这99个药物分子再进行试验，效率自然快得多。

这一开创性研究标志着抗生素发现乃至更普遍的新药挖掘方法发生了范式转变。那AI的加入到底会带来哪些更多的价值呢？

抗生素新药研发的战场，AI正全军出击

一般来说，传统的药物的研发主要经历这四个阶段：

1、靶点的选择和确认；2、先导化合物的发现和优化；3、临床前研究；4、临床试验。之后才可以正式被批准上市。一款新药从研发到上市面临3个“10”的考验：10年时间、10亿美金、10%成功率，而且这一趋势更为严重。对于抗生素的研发，也面临着同样的长时间高投入、低产出低利润的问题。

在AI特别是深度学习算法的帮助下，药物研发正在迎来新的转机。从目前AI已经在投入应用的新药研制，以及这一次AI在新的抗生素化合物分子的发现上，都表现出非常明显的效果。可以说，未来AI在新药物挖掘、化合物筛选、靶点发现和药物有效性预测等方面都将起到极大的辅助作用，一定程度上提高研发效率、节约资金以及降低临床试验的失败风险。

现代药物研发首先最关键的就是药物标靶的寻找和识别。药物靶点是指药物在体内的作用结合位点，包括基因位点、受体、酶、离子通道、核酸等生物大分子。选择确定新颖的有效药靶是新药开发的首要任务。引入AI技术之前，传统抗生素作用新靶点的筛查基于基因组、抑制蛋白质合成、合成酶等方法，其困难在于人工筛选试验效率低下，进展缓慢。

而通过AI的深度学习模型的介入，可以更快地数以千万计的科学文献的非结构数据以及这些生物的基因分子中找到可能合适的靶点。再通过选择不同的靶点并进行验证，以了解靶点的生物学特性，实时交互得到有证据的结果，实现相应药物靶点的发现。

再则，AI在新药物的化合物筛选上面也同样高效而准确。此次Halicin这一高活性化合物发现，正是根据具体的药物靶向需求，采用灵活的模型算法，在数千种可能的分子合成物中有效筛选可能的药物分子结构，极大节省了筛选时间和成本。

另外，除了在新药物靶点发现以及高活性化合物的发现外，AI在小分子药物自动合成路线的设计、新药物效果模拟和预测，甚至新型药物分子的预测上面都有实际应用的实践。这对于无论是抗生素药，还是更普遍的药物的研发都将带来巨大的契机。

在新药研发领域有一个形象的说法，那些“低垂的果实“都已经被摘完了，未来的新药研发需要去被茂密的树枝和树叶阻挡的果树高处去摘取果实。而AI可能正是抵达这些树枝身处摘取果实的最好阶梯。