Redian新闻
>
百图生科刘维:生命科学大模型可以走通

百图生科刘维:生命科学大模型可以走通

公众号新闻


1125日,由创业黑马主办的15届创业家年会在北京举办,年会主题为“AI给世界一个确定性。会上,百图生科CEO刘维,以AI+生物医药:能与不能》为主题发表了演讲。


刘维在演讲中表示,泛生命科学领域具有高价值、大市场、强本质、快节奏几大特点,有非常广阔的空间值得探索。经过百图生科的三年发展,他坚信生命科学大模型可以走通,也非常鼓励大家进入这个领域。

以下为创业家&i黑马编辑过的演讲节选:

大家好!2017年我有幸被评为“十大投资家”。历经五年,我回来了。我对这几年的总结是,一入创业深似海。三年前,我离开了从事20年的投资行业,跟百度创始人李彦宏一起成立了百图生科,全职创业。

三年前,我们做了世界上第一个生命科学的基础大模型。当时行业不认可,很多人问我们,抄的是美国哪个公司?我们说,这是用氨基酸语言去做建模,当时美国还没有这样的。大家说,美国都没有,咱们做不了,别做了。但我和李彦宏想做一件敢为人先的事情。

我们构建了世界上第一个千亿参数的生命科学的基础大模型,基于此取得了40多个不同领域的世界第一,打破了AlphaGo在蛋白质结构预测领域的记录。更重要是,在多个缺乏生命科学数据的领域,我们证明了大模型的力量。基于这个平台,我们也找到了很多靶点药物、新型基因疗法,再到合成生物学的碳捕获蛋白、降解塑料的新型生物酶等,也就是生物界不存在的蛋白质和生命体,我们开始迈向“设计生命”。

今年我们终于在商业化迈出了一步,跟30多家国际大型To B公司达成合作,代表性案例是跟赛诺菲全球签订了全球第一个超过10亿美金的生命科学大模型服务。国际大药厂为创业公司做的资产买单,而且达到了高达10亿美元的金额。我们有很多客户是分成模式,可以分到他们设计产品高达30%乃至50%的收益。这些都算是初步证明了生命科学大模型可以做,可以得到伙伴的认可。但这只是第一个小小的闭环,我们离真正帮客户做出能通过临床审批的药物、能走进千家万户的合成生物学产品,还有很远的距离。

在此之前,得到各位的支持,让我获得创业家的奖项,对我来说都有很重要的意义,因为我们要走的路还很长。这三年下来,我们坚信生命科学大模型可以走通,也非常鼓励大家进入这个领域。

为什么是生物医药?我们说的不是狭义的医药,像碳捕获蛋白、塑料降解酶,实际上是蛋白质。氨基酸是构成生命体的基本元素,我们在进化树中找到了很多,但进化树中失去的更多。我们做基因疗法系统,跳出如今常见的几种病毒,在一个类似病毒的新形态里做基因疗法。现存人类进化树上看到的氨基酸,只占地球上出现过的生物的亿万分之一,在自然界已知的是很少的部分。从这个角度讲,泛生命科学领域还有很广阔的空间值得探索。

为什么我们选择了这个领域?因为在过去十多年的投资生涯中,我发现这个领域的前沿研发有几个非常好的特点。

第一,高价值。

目前通过早期的生命科学模型,能够从大药企拿到几千万,未来的远期交易可以达到几亿、几十亿美金。原因是,一个成功的药物和生命科学的设计价值非常高,能够依靠专利保护和全世界人民的需求获得高价值。

第二,大市场。

不仅是总体量大,而且有千奇百怪、五花八门的需求。过去十年,生命科学进入到了一个新的方法学、新的设计大爆发的阶段。几年前mRNA还是一个概念,现在已经爆发了。小分子药物主导了40年,传统抗体药物主导了20年,过去短短十年内各种新型的概念、平台层出不穷。据不完全统计,科学界有50到100个具有高价值的发现。

第三,强本质。

我们用AI改造各行各业,但很多技术改变带来的增量不是这个行业唯一的本质,甚至不是强本质。例如,用AI打造智能城市时,不可能因为有这个能力而自己建立一座城市,而且整体效率要经过漫长的价值链条传导。但生命科学不一样,生命科学在早期发现阶段,就是建立在一个专利上、一个序列里。人体有20种氨基酸,一个蛋白质短则几百个、长则几千个氨基酸,就算是20的4000次方,这是一个巨大的数字。只要找到一个,就具备了高价值。一旦找到,后面的临床试验、研发、商业销售,都有人去接力。但前提是,前沿研发能做出别人做不出来的东西,我们叫强本质。AI最好的地方是数据入、数据出,在这种强本质中,AI模型的价值可以发挥得更高。

第四,快节奏。

药物的实验周期、临床周期很长,但我们做生命科学的研发和AI,不一定要背负端到端都做出来的重担。如果你的研发足够创新,行业就愿意拥抱你,愿意在早期阶段给你交接棒。我们的观察是,如果设计出一个科学界有兴趣但工业界找不到方法的新东西,比如新型的基因疗法、难成药的靶点、新型蛋白质、新型酶等,跟下游伙伴交接棒的周期,一般就是几个月到一两年时间。也就是说,只要早期阶段完成设计和初步验证,后面就有充足的人接走,并且投入资源。

此外,生物实验的节奏在过去十年也不断加快,这也是驱动我创立这家公司的重要原因。我们之前做了生命体的”读“和”写“的技术,”读“基于蛋白组学的快速发展,让我们有了海量的技术。”写“的技术发展,使我们以很高的准确率打印出来。我们内部叫蛋白打印机,就是预测出一个序列,用无细胞合成技术,几个小时就能打印出来。打印以后,再进行高通量的物质世界的测试,完成数据循环返回。当然是部分场景,有些场景还不行,但我相信这样的技术趋势已经很明显了。传统药物研发不需要这么快的节奏,但在如今AI驱动的闭环下变快了。这个循环正在形成,迭代节奏会越来越快。

过去十到二十年,基于生物信息学的统计分析已经是主流了,因为生物行业现在非常多地依赖测序和数字化技术。如果没有生物信息,以及引入一些AI方法,是无以为继的。但它也有局限性,它的基本逻辑是做对比分析、做降维。比如常见的队列研究,找出患病和没有患病的,通过降维和比较分析去看这类基因组有什么差异。比较出来的结果,一是适合强标签差异,比如某个基因突变,但如果是复杂的网络型变化,它就找不到了;第二,在降维过程中要丢掉大量信息。

在过去几年内,以深度学习的任务模型为主的AI公司在快速发展,它们使用了更多更好的深度学习网络,从而能够对更复杂的数据进行处理。我作投资人时,投了很多这类公司,发展普遍不错。

为什么我们有决心再做一家公司?因为看到了前述这些公司的局限。他们利用任务模型AI的方式,更适合在任务数据充沛的领域,去训练任务模型,从而加速和改造。导致的结果是,他们所做的更多是加速药物的研发,或者在能做药的领域做局部提升。

但是生命科学,尤其是前沿领域,它的高价值在于大家找不到的东西。很多难成药靶点之所以是难成药,就是在各种筛选平台一个分子也没有。这种情况下,传统AI怎么建模呢?2020年GPT的出现,让我们看到了大模型对于弱关联数据的价值。在高维空间,我们可以在语言上找到很多规律。这里说的语言,是氨基酸语言。

生命科学在过去十年积累了庞大的水位差,也就是它的泛关联数据在海量爆发。我们内部冲刺1万次级别的数据点,这些数据有一部分是上万平米的高通量实验室自产,更多则来自行业数据的聚合。在过去十年有上亿篇的论文和专利,利用各种前沿生物信息学技术把动物、植物、微生物、古生物、人类的各种变化、各种疾病以各种不同的方式去测量,这些测量都有误差和噪音,并且对不齐。但对于大语言模型来说,这是非常好的语料。大语言模型利用数据水位差、利用弱关联数据赋能缺乏数据的特定靶点,让难成药在高维空间里不再难成。

LV5是我们正在从事的,也就是大模型驱动的前沿闭环系统。比如要设计一个正20面体的蛋白时,传统的筛选方法筛不出来,传统CAD也没办法做模拟。怎么利用大模型的逻辑去生成、去验证?通过高通量的实验室,所见所得的打印闭环,通过几个轮次的迭代,就有机会找到这样的设计产物,这是我们目前正在做的事。

生物信息的采集、新型组学、新型高通量的数据,能不能直接进入到大模型中呢?预测结果是,通过高通量的打印系统,不是针对某个特定问题迭代,而是针对全体人类去动态迭代,实现大规模的涌现和迭代。这样的系统在未来五到十年会渐渐成为可能,而显著代替今天以单项目迭代、串行参数优化、人脑迭代为主的系统,实现对状态和空间的探索。20的4000次方,虽然非常庞大,如果用所有力量去探索,在可预见的时间内,可以把大部分探索出来。


回到今天的主题“能与不能”,我们已经证明了LV4阶段可行,即利用数据对传统AI无法预测或预测不准的领域做建模。我们怎么在不长的时间内,对40多个生命科学的任务模型做建模呢?就是利用大模型对蛋白质底层进行编码。我们希望创造巨大的商业价值,相信未来有LV5批量涌现的一天。确定性在不在我们公司,我不知道。但我对行业的确定性,抱有很大的信心。


我们做AIGC,现在是近海,我们希望走到远海的未知海域,去找进化树上不存在但能帮人类显著改变生产、生活、生命的东西。希望大家继续支持我们,在创业家大会20年的时候再回来。


扫描下方二维码
报名参加黑马AIGC产业大课
↓↓↓


推荐阅读


牛文文:人工智能是实实在在的产业未来
360集团周鸿祎:大模型的两大“确定性”机会
IDEA研究院张家兴:预训练大模型成为AI新内核
王田苗黄铁军巅峰对话:AI+具身智能,产业未来将走向何处

澜舟科技周明:大模型引领产业智能革命

中科创星米磊:未来的硬科技竞赛,知识才是最贵的
李培根院士:超越不确定性的最好工具就是AI
小冰公司CEO李笛∶生成式AI和数字人的商业化未来
拓尔思施水才:大模型产业落地需解决的五大问题
万兴科技吴太兵:AIGC时代,所有软件都需要重做一遍
洛可可创始人贾伟:用AI打造有想象力的产品

点击阅读原文,立即报名。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单对新一轮新冠疫情的质疑把每一粒稻谷“吃干榨尽”,这家农业粮油跨国巨头的循环经济走通了重磅!魁省经济类移民必须会法语!但有这条超优捷径可以走!理特咨询:生命科学的未来AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布超10亿美元,百图生科与赛诺菲达成大型战略合作,生命科学大模型商业化浪潮已来?钱颖一:功利主义能走远,但非功利主义可以走得更远,跨越从0到1​参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了路演预告 | 生命科学前沿投融资路演火热招募中!Nature Cell Biology | 北京生命科学研究所沈博实验室揭示骨髓移植后神经促进造血干细胞和血管再生的机制赛默飞生命科学学堂-有奖竞答限时挑战 | 赛默飞致敬DNA发现70周年Meta光速下架的模型Galactica,上交大用它构建地球科学大模型2008春 欧洲印象 10 比萨【行业日报】美国辞职/跳槽人数达新低!高盛6.5亿美元进军生命科学领域!数之联发表通用深度视觉模型可解释性工具,助力破解人工智能模型“黑箱”武汉都市圈高质量发展基金正式设立,总规模100亿元;华熙生物设立10亿元基金,首次投向生命科学领域 | 10.30-11.05乐观和爱才是生活的解药聊聊曼哈顿我喜欢的中餐馆晚讯 |朴衡博迈完成新一轮融资、泌码生命科学完成天使轮融资、华中农大通报:举报问题基本属实AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug阿里云通义千问上线图生视频功能;小冰宣布通过大模型备案;深圳前海深港AI算力中心正式启动丨AIGC大事日报上海AI实验室开源科学大模型,理科能力全线提升,免费商用是性格决定婚姻质量?-我妈三姐妹婚姻的启示北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新利刃出鞘!多项成果入选生命科学领域十大进展,人工智能占据首榜!罗凌飞出任复旦大学生命科学学院院长境内企业“出海”上市步伐明显加快 境外上市备案等流程已走通男人的衣柜可以走出两个估值故事【首发】瑞斯凯尔完成超亿元B轮融资,持续发力生命科学与体外诊断方向留学生海归可以走选调生进公务员了!附:各省选调生海外大学名单
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。