佐治亚理工学院计算机科学,佐治亚理工学院研究生

2023-10-22 11:48:47来源:191FUN排行网作者:佚名

澎湃科技独家获悉,百图生科即将发布AIGP平台(相当于生命科学模型的输出)及相应的合作计划,并开放部分能力接口。

“现在大家都知道ChatGPT了,好像是突然出现的,但其实是AI领域不断研究和缓慢进展的结果。”在接受独家采访时澎湃技术(www.thepaper.cn),百图生科CTO乐松表示,“ChatGPT代表了一种新的范式,这种范式转变实际上正在AI的其他领域发生,比如自然语言和图像,这些领域有大规模的预训练模型,然后对其进行微调,以应用于下游。我们从一开始就把这种范式引入生命科学,很早就布局了人才、AI模型开发和相应的计算能力,所以今天我们能有一个千亿级的生命科学模型xTrimo。”

佐治亚理工学院计算机科学,佐治亚理工学院研究生乐松,百图生科首席技术官。

在采访中,乐松将xTrimo比作生命科学领域的一个“ChatGPT时刻”——正如ChatGPT在与全球用户进行多轮对话和迭代后,能够产生越来越多的高质量答案一样,生命科学的大模型也需要通过高通量湿实验的闭环验证和数据补充来不断升级。

XTrimo选择了类似CPT-3.5的技术范式,而ChatGPT在最近发布后的惊艳表现也让乐松有了“再次确认”的感觉。“我们再次看到了大规模预培训模式和下游模式的成功。从某种意义上说,我们在自己的实验或AI模型中也看到了这种效应。”

乐松认为,在过去的几年里,随着大型模型的出现,生命科学或制药领域也有了一些逐步的改进。“比如去年流行的Alpha Fold 2,已经预测了世界上几乎所有的蛋白质结构。其实也是依靠一个大型的变压器模型来进行一步一步的改进。”

“面向生命科学的AI(应用于生命科学的人工智能)越来越走向生成之路,无论是蛋白质序列生成还是蛋白质结构生成。后来,我们可能会继续看到AIGP(AI生成的蛋白质)有趣的进展。”乐松说。

在采访中,澎湃科技独家获悉,百图生科将发布AIGP平台(相当于生命科学模型的输出)及相应的合作计划,并开放部分能力接口。据介绍,这是一个可以解读蛋白质语言,解决生命科学行业问题的平台。白土生科AI+BioTech的近300个跨国技术团队花了两年多时间研发。湿式实验系统和人工智能干式实验系统的闭环就是在这个平台上实现的。为了保证平台的效率和稳定性,百图盛科与百度合作设计了一个专用于大模型xTrimo的高性能超级计算中心。白兔生科将在3月23日的发布会上公布这个AIGP平台的具体功能。

为什么要这么做?

乐松以数据为例解释道,“因为生命的高度复杂性。目前数据量很大,但还是有限的。随着生命科学领域观测手段和技术的发展,吸收更多的数据,尤其是垂直数据,将使我们更准确地理解进化和生命。这意味着,要实现这一目标,我们需要不断吸引新的合作伙伴,尤其是那些在体外模拟系统、超精密观测和特殊验证系统方面拥有丰富知识和技术的生命科学家。”

生命科学与人工智能的融合加快。

在过去的十年中,生物学的数据量呈爆炸式增长。

这一趋势可以追溯到人类基因组计划的开始,该计划于2003年完成了人类基因组的测序。从基因组测序到RNA测序、蛋白质基因组学和代谢组学,生物学领域的技术不断完善,数据的规模和种类也不断增加。

“过去几年最大的变化是数据爆炸。”乐松回忆道,“2008年我在CMU(卡耐基梅隆大学)做研究的时候,比较大的基因测序数据集是几百个数据点,而且是批量测序(传统的高通量混合池测序)数据,但是就单细胞测序来说,数据量已经达到了几十亿。此外,还有很多其他类型的生物数据,已经达到了数十亿甚至更多的规模。”

这种数据增长速度使得用传统工具分析研究变得困难。同时,得益于人工智能技术的发展,尤其是预训练范式的出现,使得跨模态生物数据分析成为可能。

2020年9月,百度创始人李彦宏发起成立百途生科,希望整合先进的AI技术和前沿的生物技术,打造全新的多群体检测分析、高通量实验模拟和智能分子发现引擎,加速新药和诊断产品的研发。当时,白兔生科着手打造xTrimo,一个生命科学的大模型。

同样在2020年,以新冠肺炎全球疫情为分水岭,生命科学与AI的融合进一步加速。

2020年11月,谷歌母公司Alphabet的DeepMind团队开发的AlphaFold 2取得了惊人的突破。预测的结构被认为与真实结构基本一致,困扰学术界几十年的蛋白质中的分子折叠问题浮出水面。2022年,这一系列模型已经预测了世界上几乎所有的蛋白质结构。2022年,Meta公司还推出了蛋白质结构预测模型EFold。

“回想我读博士生的时候,我们把世界上的计算方法集合起来,形成一个预测结构,但是最后的预测结果却是一塌糊涂。当时的计算真的很尴尬。今天,AI已经开始颠覆我们对蛋白质结构的预测。”乐松注意到,随着大量数据的积累,计算能力的提升,AI模型的完善,如果AI和湿实验能合二为一,前沿的AI技术会更有用。

2021年,乐松离开了佐治亚理工学院的计算机学院。也是在这一年,他全职加入了百图生部门。“我们想建立一个生命科学的自动驾驶实验室(自动驾驶实验室是指利用人工智能和自动化技术进行实验和发现新材料的实验室),生命科学模型将全面支持这个实验室。有了这样的自动驾驶实验室,我们可以快速找到相关目标的线索和解决方案,并针对某些疾病和某些生命科学问题优化相关药物。”

得益于人工智能技术的发展,尤其是预训练范式的出现,使得跨模态生物数据分析成为可能。图片来源:百图生科

对于短期目标,乐松希望在一些疾病或靶点发现实验和生命科学模型之间有一个闭环,至少在实验室层面或动物实验层面证明AI发现的靶点是有效的或药物是有效的。更长远的目标是至少在免疫治疗领域实现靶点发现和药物设计的自动化。

新药研发的“反摩尔定律”

目前主流药物研发主要依靠传统生物学,根据相对有限的实验数据或文献报道筛选可能的靶点或促进功能验证。这种实验主导的新药研发模式通常包括药物发现、药物设计、体外实验、动物实验和临床试验。它的优点是可以通过实验发现潜在的药物分子,然后逐步优化验证。

但是,它的缺点也是显而易见的,比如需要大量的时间和资源,研究结果的可重复性和可靠性等等。

新药研发领域甚至流传着一个“埃鲁姆定律”,即新药研发的成本和时间随时间呈指数增长趋势。一个新药的出现可能要经历“10亿(资金)、10-12年(研发周期)、14%(成功率)”。即使排除进入临床一期的药物,成功获批上市的概率也在10%左右。更不用说,在目标发现和验证的前期,淘汰率更高。

药物研发的“Eroom法则”:制药公司花费越来越多的钱来开发更少的药物。(来源:研究门)

目前,新药研发行业正逐渐转向更加智能化、数据化的研究模式。比如利用人工智能、机器学习等技术,可以快速分析大量数据,发现药物分子的潜在机制,快速筛选出最有潜力的药物分子。

“在许多情况下,设计一种有效的蛋白质或寻找一组靶标应该考虑多种因素的组合,例如设计一段具有20个不同位置的蛋白质,每个位置有20个不同的选项。这是一个巨大的空,人们的头脑很难从整体上筛选或比较这个空,而计算做到这一点有着巨大的优势。”乐松表示,当人工智能预测的准确度达到一定水平时,它无疑会比人类做得好得多。

2021年5月,著名结构生物学家石在“首届中国生物计算大会”上表示,AI已经进入收获期。对于科学家来说,这是一个如何应用AI的问题。目前AI完成的蛋白质和基因组的预测,远远领先于人类预测的结果。判断预测好不好有两个标准。一种是把最精确的结构分析方法精确到1埃以下(埃是用来表示原子和分子大小的长度单位,1埃等于0.1纳米)。另一种是用世界上最好的分子动力学来模拟它的最佳动力学,已经到了理论预测接近实际情况的地步。

xTrimo可以用来做什么?

说到xTrimo的名字,乐松笑着说,发音听起来有点像“极限”,在一些指标上可以排世界第一。

具体来说,围绕xTrimo,百图生科构建了全球最大的免疫图谱,包括66亿个蛋白质,超300亿个蛋白质相互作用,1亿个单细胞,超6100万个免疫相互作用,6000亿个泛细胞共现关系。

XTrimo的全称是interactive home and multi-omics的cross-modal transformer presentation,是世界上第一个也是最大的生命科学领域的超大规模多模态模型系统。这个系统由一个拥有数千亿参数的预训练模型、一个蛋白质生成模型和几个下游任务模型组成。旨在探索从蛋白质到复杂生物体的进化规律,并以此为基础,生成满足特殊需求的蛋白质,通过蛋白质生成和与生物体对话的方式,加速人工设计蛋白质的进化,从而解决生命科学产业的痛点问题。

根据新药研发的场景,这个生命科学模型的核心要做两件事:一是找到靶点,二是找到靶点后基于这个靶点更好的设计药物。

具体来说,底层是预训练模型的基础。通过预训练模型,我们可以吸收大量无监督、弱相关的复杂数据,并学习它们的表示来帮助下游任务,包括目标推荐算法和基于目标的蛋白质设计算法。

XTrimo的设计逻辑包括四个嵌套结构。第一层是单个蛋白质的建模,第二层是细胞内蛋白质相互作用的建模,第三层是细胞本身的建模,第四层是细胞系统的建模。这样一个通用的大模型建立起来之后,可以针对需要的疾病靶点或者设计的蛋白质进行微调,可以减少对数据和实验的需求。

例如,当我们知道有一个疾病靶点,我们想要设计一个蛋白质时,有几个关键参数。首先是结构或者造型,要和目标有一定的契合度。疾病相关的靶点可以想象成一把锁,设计的蛋白质就是钥匙。为了打开锁,锁齿和钥匙必须具有更精确的配合。第二个是亲和力,也就是组合的强弱,需要模型来预测。

因此,在基地的一般模型中,可以想象有两个下游模型,一个用于结构预测,另一个用于组合紧密强度预测。当两者都有更准确的预测时,就可以在计算机中筛选出可能的设计。可以产生很多蛋白质,然后通过预测筛选出最合适的,最后送到实验方收集实验反馈。

如果测试反馈是期望的蛋白质,则该过程结束。如果不够好或不够好,这个实验会反馈给模型,然后它会在下一轮进行同样的过程。经过几次迭代,就会找到一个符合设计要求的蛋白质。在这个过程中,模型也在学习,变得越来越准确,越来越智能。

“一名医生一生中可能会看到多达10,000个病例,但人工智能模型可以看到所有病人。”乐松表示,在药物设计的情况下,人工智能模型可以考虑数十亿蛋白质,这是任何人类专家都无法企及的。同时,不像每一个专家往往专攻某一领域,跨不同疾病设计药物很难。xTrimo模型吸收了大量数据,具有较好的泛化能力。还可以从不同的疾病信息中学习可转移的知识,这样在新的领域遇到疾病时就少了数据需求。

目前在蛋白质的结构预测中,“和真实结构的相似度在好的条件下可以达到95%以上,有些比较难的蛋白质可能相似度只有50%,但是我们发现很多蛋白质做的很好。”乐松预计,这些模型的准确率将在未来三到五年内达到80%以上。

“我们看到一些实验系统的准确率可能是80%到90%。如果计算出来的模型能够达到上述阶段,那么三到五年就可以替代很多实验,基本上就是在电脑里搜索最想要的设计,然后做一两轮的验证和优化。”乐松说。

要实现这一目标,一个重要的挑战在于人才结构。生命科学模式不仅需要AI人才,还需要工程人才(比如高性能计算工程师),这是两个不同团队的合作。此外,还需要一些熟悉生物知识,有生物数据分析经验的人才。这种团队的内部合作并不容易,但成功了就会有收获。

乐松提到了一个成功的经验。

在目标检测算法构建过程中,算法的任务是预测扰动后细胞状态的变化,但这个任务可以直接使用较少的数据,而描述状态变化的信息是数万维的遗传信息,因此直接建模将是一个困难的任务。

通过生物学和AI算法研究者的联合碰撞,一方面从AI算法中找到了利用大量无监督的单细胞数据的预训练模型,来把握细胞千变万化的基因表达的内在联系,从而可以对被扰动的细胞状态有一个很好的预测基础。另一方面,从生物学角度出发,对现有的大量生物通路数据进行详细的分类筛选,辅助AI建立基于细胞调控图谱的扰动传播模型。xTrimoCell模型就是结合这两个方面建立起来的,这也成为了业内第一个预测免疫细胞受扰动后功能变化的模型,用于靶点发现。

这也是xTrimo系统最终表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统等多层次生物学问题的重要支撑。,了解生物数据之间的相关性,将大量可能未被标记、并非针对特定问题生成的数据转化为一类标准,并在训练后成功刷新生命科学面临的几大任务中的行业记录。

相关文章

更多排行榜

热门文章