百图生科刘维：生命科学大模型可以走通

2023-11-29 10:11

11月25日，由创业黑马主办的“第15届创业家年会”在北京举办，年会主题为“AI给世界一个确定性”。会上，百图生科CEO刘维，以《AI+生物医药：能与不能》为主题发表了演讲。

刘维在演讲中表示，泛生命科学领域具有高价值、大市场、强本质、快节奏几大特点，有非常广阔的空间值得探索。经过百图生科的三年发展，他坚信生命科学大模型可以走通，也非常鼓励大家进入这个领域。

以下为创业家&i黑马编辑过的演讲节选：

大家好！2017年我有幸被评为“十大投资家”。历经五年，我回来了。我对这几年的总结是，一入创业深似海。三年前，我离开了从事20年的投资行业，跟百度创始人李彦宏一起成立了百图生科，全职创业。

三年前，我们做了世界上第一个生命科学的基础大模型。当时行业不认可，很多人问我们，抄的是美国哪个公司？我们说，这是用氨基酸语言去做建模，当时美国还没有这样的。大家说，美国都没有，咱们做不了，别做了。但我和李彦宏想做一件敢为人先的事情。

我们构建了世界上第一个千亿参数的生命科学的基础大模型，基于此取得了40多个不同领域的世界第一，打破了AlphaGo在蛋白质结构预测领域的记录。更重要是，在多个缺乏生命科学数据的领域，我们证明了大模型的力量。基于这个平台，我们也找到了很多靶点药物、新型基因疗法，再到合成生物学的碳捕获蛋白、降解塑料的新型生物酶等，也就是生物界不存在的蛋白质和生命体，我们开始迈向“设计生命”。

今年我们终于在商业化迈出了一步，跟30多家国际大型To B公司达成合作，代表性案例是跟赛诺菲全球签订了全球第一个超过10亿美金的生命科学大模型服务。国际大药厂为创业公司做的资产买单，而且达到了高达10亿美元的金额。我们有很多客户是分成模式，可以分到他们设计产品高达30%乃至50%的收益。这些都算是初步证明了生命科学大模型可以做，可以得到伙伴的认可。但这只是第一个小小的闭环，我们离真正帮客户做出能通过临床审批的药物、能走进千家万户的合成生物学产品，还有很远的距离。

在此之前，得到各位的支持，让我获得创业家的奖项，对我来说都有很重要的意义，因为我们要走的路还很长。这三年下来，我们坚信生命科学大模型可以走通，也非常鼓励大家进入这个领域。

为什么是生物医药？我们说的不是狭义的医药，像碳捕获蛋白、塑料降解酶，实际上是蛋白质。氨基酸是构成生命体的基本元素，我们在进化树中找到了很多，但进化树中失去的更多。我们做基因疗法系统，跳出如今常见的几种病毒，在一个类似病毒的新形态里做基因疗法。现存人类进化树上看到的氨基酸，只占地球上出现过的生物的亿万分之一，在自然界已知的是很少的部分。从这个角度讲，泛生命科学领域还有很广阔的空间值得探索。

为什么我们选择了这个领域？因为在过去十多年的投资生涯中，我发现这个领域的前沿研发有几个非常好的特点。

第一，高价值。

目前通过早期的生命科学模型，能够从大药企拿到几千万，未来的远期交易可以达到几亿、几十亿美金。原因是，一个成功的药物和生命科学的设计价值非常高，能够依靠专利保护和全世界人民的需求获得高价值。

第二，大市场。

不仅是总体量大，而且有千奇百怪、五花八门的需求。过去十年，生命科学进入到了一个新的方法学、新的设计大爆发的阶段。几年前mRNA还是一个概念，现在已经爆发了。小分子药物主导了40年，传统抗体药物主导了20年，过去短短十年内各种新型的概念、平台层出不穷。据不完全统计，科学界有50到100个具有高价值的发现。

第三，强本质。

我们用AI改造各行各业，但很多技术改变带来的增量不是这个行业唯一的本质，甚至不是强本质。例如，用AI打造智能城市时，不可能因为有这个能力而自己建立一座城市，而且整体效率要经过漫长的价值链条传导。但生命科学不一样，生命科学在早期发现阶段，就是建立在一个专利上、一个序列里。人体有20种氨基酸，一个蛋白质短则几百个、长则几千个氨基酸，就算是20的4000次方，这是一个巨大的数字。只要找到一个，就具备了高价值。一旦找到，后面的临床试验、研发、商业销售，都有人去接力。但前提是，前沿研发能做出别人做不出来的东西，我们叫强本质。AI最好的地方是数据入、数据出，在这种强本质中，AI模型的价值可以发挥得更高。

第四，快节奏。

药物的实验周期、临床周期很长，但我们做生命科学的研发和AI，不一定要背负端到端都做出来的重担。如果你的研发足够创新，行业就愿意拥抱你，愿意在早期阶段给你交接棒。我们的观察是，如果设计出一个科学界有兴趣但工业界找不到方法的新东西，比如新型的基因疗法、难成药的靶点、新型蛋白质、新型酶等，跟下游伙伴交接棒的周期，一般就是几个月到一两年时间。也就是说，只要早期阶段完成设计和初步验证，后面就有充足的人接走，并且投入资源。

此外，生物实验的节奏在过去十年也不断加快，这也是驱动我创立这家公司的重要原因。我们之前做了生命体的”读“和”写“的技术，”读“基于蛋白组学的快速发展，让我们有了海量的技术。”写“的技术发展，使我们以很高的准确率打印出来。我们内部叫蛋白打印机，就是预测出一个序列，用无细胞合成技术，几个小时就能打印出来。打印以后，再进行高通量的物质世界的测试，完成数据循环返回。当然是部分场景，有些场景还不行，但我相信这样的技术趋势已经很明显了。传统药物研发不需要这么快的节奏，但在如今AI驱动的闭环下变快了。这个循环正在形成，迭代节奏会越来越快。

过去十到二十年，基于生物信息学的统计分析已经是主流了，因为生物行业现在非常多地依赖测序和数字化技术。如果没有生物信息，以及引入一些AI方法，是无以为继的。但它也有局限性，它的基本逻辑是做对比分析、做降维。比如常见的队列研究，找出患病和没有患病的，通过降维和比较分析去看这类基因组有什么差异。比较出来的结果，一是适合强标签差异，比如某个基因突变，但如果是复杂的网络型变化，它就找不到了；第二，在降维过程中要丢掉大量信息。

在过去几年内，以深度学习的任务模型为主的AI公司在快速发展，它们使用了更多更好的深度学习网络，从而能够对更复杂的数据进行处理。我作投资人时，投了很多这类公司，发展普遍不错。

为什么我们有决心再做一家公司？因为看到了前述这些公司的局限。他们利用任务模型AI的方式，更适合在任务数据充沛的领域，去训练任务模型，从而加速和改造。导致的结果是，他们所做的更多是加速药物的研发，或者在能做药的领域做局部提升。

但是生命科学，尤其是前沿领域，它的高价值在于大家找不到的东西。很多难成药靶点之所以是难成药，就是在各种筛选平台一个分子也没有。这种情况下，传统AI怎么建模呢？2020年GPT的出现，让我们看到了大模型对于弱关联数据的价值。在高维空间，我们可以在语言上找到很多规律。这里说的语言，是氨基酸语言。

生命科学在过去十年积累了庞大的水位差，也就是它的泛关联数据在海量爆发。我们内部冲刺1万次级别的数据点，这些数据有一部分是上万平米的高通量实验室自产，更多则来自行业数据的聚合。在过去十年有上亿篇的论文和专利，利用各种前沿生物信息学技术把动物、植物、微生物、古生物、人类的各种变化、各种疾病以各种不同的方式去测量，这些测量都有误差和噪音，并且对不齐。但对于大语言模型来说，这是非常好的语料。大语言模型利用数据水位差、利用弱关联数据赋能缺乏数据的特定靶点，让难成药在高维空间里不再难成。

LV5是我们正在从事的，也就是大模型驱动的前沿闭环系统。比如要设计一个正20面体的蛋白时，传统的筛选方法筛不出来，传统CAD也没办法做模拟。怎么利用大模型的逻辑去生成、去验证？通过高通量的实验室，所见所得的打印闭环，通过几个轮次的迭代，就有机会找到这样的设计产物，这是我们目前正在做的事。

生物信息的采集、新型组学、新型高通量的数据，能不能直接进入到大模型中呢？预测结果是，通过高通量的打印系统，不是针对某个特定问题迭代，而是针对全体人类去动态迭代，实现大规模的涌现和迭代。这样的系统在未来五到十年会渐渐成为可能，而显著代替今天以单项目迭代、串行参数优化、人脑迭代为主的系统，实现对状态和空间的探索。20的4000次方，虽然非常庞大，如果用所有力量去探索，在可预见的时间内，可以把大部分探索出来。

回到今天的主题“能与不能”，我们已经证明了LV4阶段可行，即利用数据对传统AI无法预测或预测不准的领域做建模。我们怎么在不长的时间内，对40多个生命科学的任务模型做建模呢？就是利用大模型对蛋白质底层进行编码。我们希望创造巨大的商业价值，相信未来有LV5批量涌现的一天。确定性在不在我们公司，我不知道。但我对行业的确定性，抱有很大的信心。

我们做AIGC，现在是近海，我们希望走到远海的未知海域，去找进化树上不存在但能帮人类显著改变生产、生活、生命的东西。希望大家继续支持我们，在创业家大会20年的时候再回来。