西湖云谷智药马丽佳:AI叩响基因编辑治疗的治愈之门 | 高榕未来

高榕创投高榕创投·2023年7月4日

AI for Science实践。

随着现代生物医学的发展,人类对生命的认知越来越精深,其中基因技术让我们能够深入"生命之书"去追踪疾病源头、寻找对策。不管是罕见病或者是癌症,基因编辑技术都有望从源头上修正错误,并展现魔法般的"一次性治愈潜力"。

第三代基因编辑技术CRISPR,自2013年被科学家首次证明可以在哺乳动物细胞内实现高效的基因组编辑以来,正在彻底改变生物医学基础研究和临床研究领域。凭借高效、便捷、适用范围广的优势,CRISPR正在极大改进修复基因组错误的能力,这一技术也于2020年获得诺贝尔化学奖。

近几年,全球范围内CRISPR基因编辑疗法的产品研发管线正陆续涌现,涵盖了血液疾病、代谢类疾病、肌肉萎缩症、肿瘤等领域。其中全球首个用于治疗镰刀型细胞贫血(SCD)和输血依赖型β地中海贫血(TDT)的CRISPR基因编辑疗法,已于今年提交上市申请。

不过,基因编辑疗法以及更广义的基因治疗还有诸多难点需要攻克,比如复杂的生产流程、高昂的药物价格、有待继续观察的药物安全性等。未来是否有可能大幅降低基因治疗药物的成本?成药过程中的诸多环节,AI是否能够帮助实现加速?

西湖云谷智药创始人马丽佳看来,"这是我们非常笃定的信念,希望结合高通量Biotech数据与AI技术,从安全性、有效性、长期性和可及性等方面全方位赋能基因编辑治疗。"

马丽佳是西湖大学功能基因组与基因治疗实验室负责人,她是中国科学院北京基因组研究所博士、芝加哥大学基因组学与系统生物学研究所博士后,长期从事大规模功能基因组学研究。2021年2月,作为创始人之一创立AI赋能的基因编辑治疗公司西湖云谷智药,致力于走通人工智能技术在基因编辑治疗领域落地的全流程。高榕资本曾于2021年投资了西湖云谷智药天使轮,并继续参与Pre-A轮融资。

近期,马丽佳在榕汇生成式AI系列活动中,结合自主研发的最新深度学习模型成果,分享西湖云谷智药在基因编辑领域的AI for Science实践,以及如何从技术创新推向产品实现,并为未来迈向商业化落地奠定基础。

基因编辑治疗方兴未艾,市场价值巨大,"一个非常显著的指标,目前市面上的基因编辑治疗药物,打一针需要310万美金左右,这么说大家就非常好理解了。"马丽佳指出,"我们核心做的一件事,就是把Biotech和AI技术有机融合在一起,让基因编辑药物未来更安全且不再昂贵无比。"

公司成立伊始,马丽佳和团队便开展以高通量、高精度、高维度的Biotech数据产出与深度学习模型构建相迭代的前沿技术开发,希望自研差异化的基因编辑治疗产品。

传统药物一般以蛋白质为靶点,而基因治疗药物以异常DNA为靶点。"我们提出AI赋能基因编辑疗法,最早很多人不理解,原因是这一领域的生物学实验收集数据时间过长、效率过低。"

但马丽佳认为,基于分子生物学的中心法则(Central Dogma),针对从DNA转录到RNA、再进一步翻译为蛋白质、最终呈现细胞功能形态变化这一复杂的过程,如果能够找到可测量的维度并且能用合适的数据形式去表达,进而成为机器可以学习的语料或者训练的数据集,那么AI赋能便能够成为现实。

马丽佳解释CRISPR技术的作用机理,"通过一条设计好的向导RNA(gRNA),让其序列和目标基因组序列互补,这样就能够带着Cas核酸酶去到相应的位置。而Cas酶具有修改DNA序列的能力,可以在特定位置实现DNA的插入、删除或者碱基替换,从而实现非常精准的基因编辑。"

视频:了解CRISPR技术作用机理

也就是说,实现基因编辑治疗系统需要三个基本组件——向导RNA(guide RNA,gRNA),Cas核酸酶(Cas nuclese),递送系统(Delivery system)。马丽佳把基因编辑治疗系统形象比喻成一个可以精准制导的远程导弹系统,"gRNA就像GPS导航,负责找到出错点并规划路线,递送系统相当于推进器,Cas核酸酶就像工程师,沿着规划路线抵达相应位置并最终对错误进行校正。"

令人欣喜的是,上述三个组件均具有"可编程性",可以基于大数据和深度学习的方式去研究其规律。

而目前Biotech领域的新一代基因测序技术,能够大规模、高质量读出核酸序列,快速产出生物学数据。

可以说,基因编辑治疗系统中所有组件可编程,以及新一代基因测序技术的不断成熟,是AI在基因编辑治疗领域有用武之地的两大前提。

那么,科学家如何研发一款CRISPR基因编辑药物?主要包括三个步骤。

靶点发现(Target Identification),即找到需要修饰的基因组DNA;

基因编辑策略(Editing Strategy),选择怎样的"GPS(gRNA)"和Cas酶也会很大程度影响药物开发的效率;

递送系统设计(Delivery System),针对不同的靶向目标,需要配套不同的递送系统。

在上述关键步骤,西湖云谷智药原创性地提出Biotech+AI辅助的基因治疗产品开发范式。

马丽佳介绍,在靶点发现阶段,可以在高通量功能基因组学等的基础上,结合DNA预训练模型,加速靶点发现;策略选择阶段,通过一系列预测模型和数据库,找到最适合的gRNA和Cas酶;递送阶段,结合深度学习模型,找到最佳递送载体。

马丽佳也分享了团队的最新成果——**一种全新策略构建的深度学习模型,能够有效预测CRISPR多维gRNA性能,进一步用于指导设计出具有特定靶向性和稳定性的gRNA分子。**相关研究成果于5月16日在Cell Discovery上发表论文(《Deep sampling of gRNA in the human genome and deep-learning-informed prediction of gRNA activities》)。

人类基因组有6×10⁸个具有NGG-PAM的潜在gRNA,"最理想情况是我们把坐标系中所有可能目标所对应的路径都真实测量出来,存储在'GPS'里;但是这样的实验量是目前已有技术做不到的。"马丽佳和团队在研究中选取了其中约1%的数据空间,通过高质量的实验进行取样,在高通量gRNA-靶点序列文库支持下,全面描述了两种人类细胞系(K562和Jurkat)92万个gRNA的靶点编辑效率、脱靶编辑特异性和DSB修复图谱,"获得非常清晰的label值"。

基于这一目前规模最大、质量最好的gRNA-靶点序列数据集,西湖云谷智药开发了相应的深度学习模型,包括用于预测gRNA活性的AIdit_ON、用于预测脱靶活性的AIdit_OFF和用于预测SpCas9诱导的DSB修复图谱的AIdit_DSB。"未来当一个新的坐标出现时,通过'GPS模型'就可以帮助我们快速规划出最佳路线。"

"通过与其他同类模型进行头对头比较,我们的模型表现具有显著优势。"马丽佳和团队也搭建了一个嵌入三个高性能模型的公共网站(https://crispr-aidit.com),研究人员通过输入基因名称、序列片段或带有序列的FASTA文件,可以获得gRNA的多维预测数据,更精准选择合适的gRNA。

马丽佳进一步介绍,团队利用这一模型去尝试针对一种罕见病的药物管线设计,将以往需要3-4年设计基因编辑策略的过程,缩短到了3个多月,预计这一管线今年下半年可以推进到临床。"从中可以看出AI赋能基因编辑治疗这一研究范式,为提升药物研发效率带来的巨大变革。"

除了基因编辑平台,西湖云谷智药也正同步开发靶点发现平台,用于预测基因治疗的新靶点;新酶发现平台,开发自主知识产权基因编辑酶,解决出海时的专利问题;以及递送载体平台,用以创建AI生成的AAV突变体进化新范式。

"CRISPR技术本身非常新",作为先行者,马丽佳也分享了在过程中遇到的一些挑战。

首先是如何将基因编辑过程中的生物医学问题抽象为计算生物学问题,"必须把生物技术领域的问题转化为数据集,并且是适合让机器去学习的。"

第二个问题是数据从哪来,"尤其是基因编辑领域数据产出的难度很大,需要有非常强的行业know-how。"

第三大挑战是Biotech领域和AI领域的跨界融合。"我们的AI专家,必须要有很强的主动学习意愿和能力才能够了解基因编辑技术,否则他是不知道如何去调优参数、构建模型的。"

西湖云谷智药已搭建起一支覆盖基因组学、深度学习、细胞生物学和免疫学的交叉学科团队,"过程中我们也经历了磨合,相互更理解彼此。例如我们的AI模型迭代之后,需要经历3-6个月的实验期去产出数据,这样的周期对于做AI的人来说可能很难理解。面对这样的挑战,我们会加快实验团队产出数据的速度,过程中AI团队再继续优化模型。"

以高质量的数据、原创技术驱动的基因编辑治疗技术平台作为基础,西湖云谷智药"希望更快破译遗传密码中的问题,并用基因编辑的手段去纠正它们。"背后的动力源于一种坚信,"基因编辑药物未来必将与传统的小分子、大分子药物一样,成为人类医疗健康的重要守护者。"