首个千亿医药对话大模型来了，要打破医药研发“三十定律”

2023-09-28 05:09

10 年时间，投入超 10 亿美金，但成功率只有 10%——这是医药研发领域的“三十定律”。从某种程度来说，它像是医药行业的一个“魔咒”。

一个药物在正式上市之前，需要经过立项调研、早期药物发现、早期临床前研究、临床试验药物重定位等各个流程。对于药企而言，整个过程存在三大痛点：第一，信息繁杂，对专家依赖度极高；第二，探索空间有限，湿实验（* 注）迭代慢；第三，投入成本高，失败风险大。

为了打破这个“魔咒”，近日水木分子发布了新一代对话式药物研发助手 ChatDD (Drug Design) 和全球首个千亿参数多模态生物医药对话大模型 ChatDD-FM 100B。其中，ChatDD 能够在立项、临床前研究、临床试验各环节提供服务，预计将于 10 月中下旬邀请基础版本内测；ChatDD-FM 100B 在 C-Eval 评测中达到全部医学 4 项专业第一，是唯一在该 4 项评测中平均分超过 90 分的模型。

从人工炼药到人机交互，医药研发经历四个阶段

回顾研发模式的发展历程，水木分子首次定义了医药研发的四个阶段：

第一阶段称为 TMDD（Traditional Manual Drug Design），从远古时代一直持续到 19 世纪末，主要以手工合成、提取和筛选为主，基于大量试验、错误和经验主义，缺点是低通量、缺乏系统性、耗时长且成本高；

第二阶段称为 CADD（Computer-Aided Drug Design），从 20 世纪中叶到 21 世纪初，计算机的出现开始辅助加速药物发现和设计，底层有物理化学规则做支持，在一定程度上实现了高通量，但是计算机只具有工具属性，因此只能解决单个问题，在研究过程中，仍然在很大程度上依赖研究人员经验；

第三阶段称为 AIDD（AI Drug Design），从 21 世纪初至今，人工智能技术的成熟发展和应用，开始改变药物研发，研究人员可以从训练数据中挖掘药物发现和设计，优点是能够满足超高通量，实现流程化，但是缺乏模型与专家交互，依赖大规模高质量标注数据，面临信息与知识分离，工具服务分散，处理模态单一等挑战；

第四阶段称为 ChatDD（Chat Drug Design），即基于当下的大模型能力，对多模态数据进行融合理解，与专家自然交互人机协作，重新定义药物研发模式。

在整个过程中，每个阶段的技术革新都带来了不同程度的效率提升和科学发展，为药物研发带来了新的机遇和挑战。“但是，目前市场上至少还有超过 1/ 3 的药还是通过 TMDD 研发设计的。”清华智能产业研究院（AIR）首席研究员、水木分子首席科学家聂再清教授表示，这正是如今医药研发周期长、投入大、风险高很重要的原因。

虽然计算机、人工智能技术能够起到一定的研发辅助作用，但是仍然停留在工具阶段，研发过程很难摆脱对专家的知识依赖。“并且专家的知识储备也是有限的，无法掌握所有的文章、专利、数据。我们认为，把专家知识与大模型知识联结，二者进行协作，这才是药物研发现在和未来应该有的模式。”聂再清教授强调。

除此之外，利用此前的技术辅助医药研发还面临两个挑战：一方面，海量的实时数据散落在各处；另一方面，生物医药涉及大量细分领域，每个领域需要配备对应工具，这些工具的使用门槛和成本也相对较高。“这也是我们发布 ChatDD 的原因，希望通过一个自然语言的交互界面，能够把专家从繁琐的数据处理和工具使用工作当中解放出来，把更多的精力放在更加开创性的、更有价值的工作上。”

搞定立项、临床前研究、临床试验难题，ChatDD 的三个场景应用

水木分子在此次发布会上展示了 ChatDD 的在医药研发环节的三个具体应用场景，包括 ChatDD-BI 立项场景、ChatDD-Discovery 研发探索场景和 ChatDD-Trail 临床试验场景应用。

ChatDD-BI：辅助立项调研

和仿制药生产制造不同，在药物研发过程中，立项环节极为重要，甚至一个错误的决定都可能导致巨大的经济损失。

在传统模式下，这一工作存在三个主要痛点：第一，信息繁杂，涉及对大量数据的搜集、整理和分析，比如病人需求、疾病机制、医药行业现状、专利和文献检索等等，并且这些数据散落各处，收集难度大、耗费时间长，一份高质量的立项报告的输出需要专家投入大量精力。第二，这一工作是非标准化的，对专家依赖极高，还存在信息不全面的问题，可能对项目的决策和发展产生负面影响。第三，立项涉及企业商业秘密难以外包，这也增加了信息搜集的难度。针对这一问题，ChatDD-BI 的角色是作为立项助手，通过与专家的数轮对话辅助立项调研，从而提升立项的效率和质量。

ChatDD-Discovery ：启发研发灵感，提高工具使用效率和体验

针对临床前研究场景，传统的做法是做湿实验，然后根据结果不断迭代。但是随着时间的推移，找到针对已知靶点的药物越来越难。因此，科学家们需要更大的探索空间来寻找新的靶点和治疗方案。对此，水木分子认为，大模型的幻觉在科学研究探索性中可能会带来“意外”的灵感。

以针对渐冻症治疗方案的探索场景为例，研发人员可以通过对话获得“渐冻症”疾病画像，包含疾病的描述、已有治疗方案等等，如下图：

同时，ChatDD 还会通过查询外部数据库，如 ClinicalTrails，给出渐冻症在研药物进展。以“利司扑兰”为例，研发人员可以利用 ChatDD 进一步探究其作用靶点，ChatDD 找到利司扑兰的作用靶点“SMN2”，通过建立疾病、靶点、药物之间的潜在链条关系，发现并建议“SMN2 是渐冻症的潜在靶点，可进行下一步探究探索”。根据已发表的多项研究成果，证明了 ChatDD 推断的合理性。

除了“灵感激发”之外，ChatDD-Discovery 同样可以提高研究人员的研发效率。在医药研发过程中，研究人员需要查询大量文献和检索专利等，这需要高频使用各种工具，学习成本高且难以与专家知识互动融合。而 ChatDD-Discovery 采用自然语言交互方式，将专家知识模型参数化，只需简单回答问题，就能使用虚拟筛选功能，使研究人员更高效地完成任务。

值得一提的是，ChatDD-Discovery 研发助手可以处理生物医药多模态数据，如分子、蛋白质、基因序列以及多样的生物医药下游任务，如 DDI（药物 - 药物相互作用计算）、亲和力计算、药物敏感性预测、单细胞类型注释等。例如，输入分子式 ChatDD-Discovery 就可以生成该分子的完整描述信息，并且支持用户针对该分子进行进一步提问。

ChatDD-Trial：提高临床试验成功率

在药物研发的全流程中，临床试验是耗资最多、风险最大的那一环，因此，想要打破“三十定律”，提高临床试验成功率是重中之重。换个角度来看，由于成本巨大，所以，在这个环节只要有一点点的提升，就能带来可观的经济效益。

对此，水木分子 ChatDD 目前主要关注四个小场景：药物生物标记物发现、临床试验入组设计、临床试验报告撰写、药物重定位和适应症扩展。

比如，ChatDD-Trial 可以辅助临床试验研究人员找到最适合入组的患者人群；比如，通过发现药物敏感的生物标志物，更好地理解疾病亚型，实现精准的患者分类，确保患者与试验药物更匹配，减少不必要的变量干扰，提高临床试验成功率；再比如，作为临床试验设计助手，帮助研究团队优化试验设计，通过分析大量的相关数据，提供有关患者选择、临床试验阶段和标准化流程的建议，确保试验的科学性和可行性，减少不必要的误差和风险。

据聂再清教授介绍，目前 ChatDD 提供了三类服务方式：一是订阅服务，支持企业账户；二是 API 服务，支持高速推理服务，提供开发者培训；三是私有化部署，支持本地数据微调，定制场景方案。

三级淬炼出千亿级生物医药行业大模型

ChatDD 的底层，基于的是水木分子千亿参数多模态生物医药对话大模型 ChatDD-FM。

上图是 ChatDD-FM 多模态生物医药大模型的架构图：首先，对生物医药垂直领域的知识图谱、分子、蛋白质、单细胞测序、文本等多模态进行编码；然后，将各种不同模态对齐到统一的特征空间，进行模态融合、专业领域指令微调；最后，在产品端支撑 ChatDD-BI、ChatDD-Discovery 和 ChatDD-Trail 三大应用。

水木分子首席技术官、联合创始人乔木博士强调，ChatDD-FM 是一个灵活、可扩展的架构，在当下版本基础上，还可以持续增加其它不同模态。而对于用户而言，可以通过自然语言对话方式与大模型进行交互。其背后，是 ChatDD-FM 对数千篇中英文生物医药文献、千万级通用场景对话、数十万个工具调用指令集等高质量数据的预训练，以及指令微调和智能工具调用。

水木分子由 AIR 孵化，在今年 6 月份成立，主要专注于生物医药垂直行业大模型的研发与应用。而早在今年 4 月，聂再清教授团队就已经开源了生物医药版 GPT BioMedGPT1.6B，从研究层面验证了将文献、分子、蛋白、测序、知识图谱等数据压缩到统一的多模态大模型框架内，可使模型具备“融会贯通”的能力，在分子性质预测、药物 - 靶点亲和力预测、性质预测、药物敏感性预测、分子 - 文本跨模态检索、分子 - 文本跨模态信息生成等多项任务上优于单一专用模型，从研究层面验证了技术可行性。

8 月，水木分子又开源了全球首个可商用的百亿级参数规模多模态生物医药大模型 BioMedGPT-10B。其中，首次提出了分子 QA 和蛋白质 QA 任务，给定特定分子 / 蛋白质，可以用自然语言回答相关功能、属性等问题，有效评估模型在自然语言和生物编码语言之间的翻译能力。

据聂再清教授介绍，虽然 BioMedGPT 已经实现商用，但由于是科研项目，所以使用的仍然是英文界面，中文对话能力较弱，因此在国内市场实现商用普及有限。这便是水木分子成立背后的原因之一。

“接下来，BioMedGPT 仍然会继续往前推进，作为科研品牌继续开源。而此次 ChatDD 和 ChatDD-FM 的孵化，则是大模型都科研迈向产业化，是产学研结合的关键一步。”聂再清教授强调，“我们认为大模型未来必将成为 AI 时代的操作系统，就像我们 PC 时代的 Windows，移动互联时代的 Android、iOS。而现在我们正在做的生物医药大模型，未来在整个 AI for science 领域都有可能用上。对此，我们充满了期待。”

而现下，ChatDD 和 ChatDD-FM 的发布，已然重新定义了医药研发模式，不仅可以提高研究人员的工作效率，还可以为研发新药提供更多的可能性。未来，随着技术的持续迭代革新，医药研发的效率和成功率将会得到显著提高，打破“三十定律”的“魔咒”指日可待。

*注：

“湿”实验指的是将待测样本利用实验室方法进行核酸提取、文库构建（包括片段化、富集、扩增等一系列过程）到完成上机测序的实验过程；“干”实验则是从得到下机数据开始，到完成生信分析和报告解读的整个过程。

福利通道

关注「InfoQ 数字化经纬」公众号，回复「行知数字中国」即可获得《行知数字中国数字化转型案例集锦（第二期）》。
关注「InfoQ数字化经纬」公众号，回复「抽奖」可以参与本周活动，有机会获得定制礼品。

活动推荐

大模型的出现从根本上改变了数字化转型的赛道，在 InfoQ《超级连麦. 数智大脑》直播中，富滇银行数字金融中心副主任李涛深入探讨了自身对于 AIGC 在金融领域创新方面的思考，分享了银行数字化发展的历程及背后的架构演进。识别下方二维码或关注「InfoQ 数字化经纬」公众号，即可阅读全文。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章