Redian新闻
>
ICLR 2023 | 屠榜OGB-LSC!Uni-Mol超进化开拓材料设计新天地

ICLR 2023 | 屠榜OGB-LSC!Uni-Mol超进化开拓材料设计新天地

公众号新闻

Uni-Mol是由深势科技于2022年5月发布的一款基于分子三维结构的通用分子表征学习框架,论文被机器学习顶会ICLR 2023接收。Uni-Mol性能优越、模型泛化能力强,在小分子性质预测、蛋白靶点预测和蛋白-配体复合物构象预测等任务上都超越之前方法。Uni-Mol被应用于深势科技的多个产品中,也获得了大量学界和业界研究人员的广泛关注。同时,我们成功把Uni-Mol应用在了例如材料设计等更多领域,并取得了优异成果。
最近,我们对Uni-Mol的模型框架进行了大幅升级,推出了Uni-Mol+,并在国际权威学术竞赛OGB-LSC的量子化学性质预测上获得了榜首我们会在本文详细介绍这些内容,并在Bohrium®科学计算云平台上提供了Uni-Mol使用案例。

Uni-Mol 论文:https://openreview.net/forum?id=6K2RM6wVqKu

Uni-Mol+ 预印论文:https://github.com/dptech-corp/Uni-Mol/blob/main/unimol_plus/paper/unimol_plus_preprint.pdf

开源代码:https://github.com/dptech-corp/Uni-Mol
▲ Uni-Mol 在各类任务上都表现优异,超越之前的最好方法。图中内部灰色区域为之前的最好方法的效果,外部多种颜色区域描述的是是Uni-Mol在多种任务上超出之前最好方法的百分比。

Uni-Mol+: 单模型独领风骚,

轻松碾压暴力融合方案

OGB-LSC (Open Graph Benchmark, Large Scale Challenge) 是一项由斯坦福大学发起的学术竞赛,旨在评估机器学习在大规模图数据上的表现。该竞赛首次在KDD CUP 2021上举办,吸引了来自DeepMind、微软、NVIDIA、UCLA等顶尖企业和高校的500多个参赛队伍,备受业界关注。
近年来,越来越多的新型图机器学习模型也加入到这个比赛中,以证明自己的模型性能。可以说,OGB-LSC已成为公认的检验图机器学习模型性能的最佳试金石,类似于ImageNet在图像领域的地位

最近,深势科技推出了Uni-Mol+,这一新模型进一步增强了性能,同时还在OGB-LSC的量子化学性质预测任务上夺得了冠军。值得一提的是,Uni-Mol+仅使用了单个模型,没有使用任何额外的提分技巧。相比之下,之前的冠军方法不仅融合了100多个模型,还额外把验证数据集用于模型训练。从这点来看,Uni-Mol+的模型能力非常强大。

相较于之前的方法,Uni-Mol+ 在整体框架、模型结构和训练策略等方面都进行了创新。在整体框架方面,Uni-Mol+ 基于低成本的方法如RDKit/Openbabel生成初始构象,并通过迭代优化这些构象,使其逼近 DFT 方法得到的高精度稳态构象。这样一来,可以通过基于模型优化后的构象来获得更精确的量子化学性质预测结果。
在模型结构方面,Uni-Mol+ 进一步加强了 Uni-Mol 的双分支 Transformer 结构,以更好地捕捉三维空间的信息。而在训练策略方面,Uni-Mol+ 提出了一种新的方法,即线性轨迹注入,可以更有效地学习 DFT 构象的优化。关于这些细节可以参考我们的开源代码和论文。

Uni-Mol Universe

更多的应用场景
1. Uni-Mol for QSAR

QSAR是定量构效关系(Quantitative Structure-Activity Relationship)的缩写,是一种基于化合物结构预测化合物的生物活性和生化性质的计算方法。该方法通过将分子结构与其物理、化学性质及生物活性相关联,然后构建一个模型,以期该模型可以预测新的化合物的生物活性。QSAR在药物设计、环境毒理学和农药研究等领域中得到广泛应用

Uni-Mol based Auto-QSAR (Uni-QSAR) 是一套基于Uni-Mol模型开发的自动化分子属性预测工具,可供专业领域相关人员使用。我们对目前主流的QSAR工具在TDC ADMET Group Benchmark上的测评结果进行了比较。TDC (Therapeutics Data Commons) 是哈佛医学院主导开发的一个基准平台,其中ADMET包含了药物小分子的吸收、分布、代谢、排泄和毒性五个方面的指标。这些因素对药物的疗效和安全性有着至关重要的影响。

在药物研发过程中,需要对药物的ADMET特性进行评估和优化,以提高药物的成功率,减少不良反应的发生。Uni-QSAR在这些任务上表现出了非常优异的效果。通过结合Uni-Mol和高效的自动化工作流,用户不需要关注模型细节,无需调参,即可自动化地进行特征构造和筛选。同时,Uni-QSAR也考虑到了样本不平衡性和预测任务类型的多样化(分类、回归、多任务学习、缺失值训练等等),用户只需要关注自己的任务本身。

Uni-QSAR的内测版本已经成功地应用于国际知名的快速消费品牌Top3之一,表现出了优秀的预测能力。在多个数据库中,预测的准确性都有明显提升,超过了其他方案。该项目已经完成了首轮交付,并且正在探索未来的合作空间。同时,Uni-QSAR也即将上线Hermite®药物计算设计平台,敬请期待。

2. Uni-Mol for Materials

Uni-Mol在材料领域也积累了不少的应用和案例,以下我们会选取MOF和OLED两个经典案例分别阐释Uni-Mol的通用性和预测能力的扩展
MOF材料是一种由金属离子或者簇合物和有机配体组成的多孔晶体材料,对MOF材料的气体吸附研究具有重要的理论和实际意义,例如,可以用于环境污染控制、能源储存和转换、化学催化等领域。

基于Uni-Mol,我们设计训练了一个跨体系的模型Uni-MOF,可以对不同的气体(甚至未知的气体)、在不同的环境下面(温度、压强等)进行预测,其结果也大幅超越了之前单体系模型。这种建模思路也非常契合目前大火的ChatGPT,可以认为我们是在MOF吸附领域实现了大一统模型,具体细节可以关注我们即将发布的论文。

我们也把Uni-Mol成功拓展到OLED Ir(III) 体系的大规模虚拟筛选上面,用于搜索性能更好的OLED发光材料
OLED Ir(III)体系是一种基于有机发光二极管(OLED)技术的发光材料体系,其中使用了含铱(Ir)的荧光材料。这种体系具有高效、低功率消耗、高亮度和高稳定性等优点,因此在电子显示领域有广泛的应用。其中,Ir(III)配合物材料具有较高的荧光效率和发光寿命,可以用于制备高效的红、绿、蓝光发射器件。OLED Ir(III)体系在智能手机、平板电脑、电视、汽车仪表盘等领域都有着广泛的应用前景。
通过利用Uni-Mol强大的预测能力,我们可以极大地降低额外的计算成本,同时高通量的筛选迭代也能够进一步提高模型的预测效果(如下图左图所示)。这种大模型训练和QM小规模计算相互迭代的思路也将成为材料研发的一种新型范式。从下图右图所示的结果可以看出,Uni-Mol 也满足了OLED材料的筛选基本要求,例如需要光色尽可能纯和plqy尽可能大。
更多细节,请参阅我们在 ChemRxiv 上的预印本文章:https://chemrxiv.org/engage/chemrxiv/article-details/6412d142aad2a62ca1d86505

除了MOF和OLED,Uni-Mol还可应用于更多的材料设计任务。由于篇幅所限,无法一一描述,期待不同背景的研究者与我们一起探索Uni-Mol的潜力。


Uni-Mol讲解教程及

在线Notebook 体验 

关于Uni-Mol详细的原理讲解,可以关注青年科学论坛上的报告(报告详见:https://www.bilibili.com/video/BV1Kb411d7fd/?vd_source=c8f4712b9892a47ee66136a66142861b,报告中使用深势科技推出的科学计算平台上的Bohrium Notebook展示了如何将Uni-Mol快速地应用在分子性质预测的任务上。
在Bohrium Notebook 上,我们准备了一系列基于Uni-Mol的封装好的软件库,与开源版本不同的是,这些小工具和软件包更加适配于应用层,环境和软件包都是内置安装好的,同时接口也进行了二次开发,可扩展性更高。用户只需要关注其具体的数据和应用。同时我们也持续收集用户的反馈,进行开发迭代。大家可以点击下面的链接直接进行体验测试:

⦁ 分子属性预测案例

https://bohrium.dp.tech/notebook/fffab22768fb4bfdba10578d7de174b5Bohrium Notebook可以自动地加载运行环境,通过几行代码即可对于自己的数据任务进行训练、预测,生成自己的属性预测工作流。


⦁ Uni-Mol Docking案例

https://bohrium.dp.tech/notebook/0369c15de1e14300b1423006d17a74d4Bohrium Notebook目前仅展示了对于CASF-2016的docking结果,大家可以自由选取靶点和对应的配体分子,然后进行docking,后续会开放更多的功能。


未来展望


Uni-Mol+展现出的优异性能展现了其在AI4S领域中的巨大潜力,深势科技正在将Uni-Mol+与产品功能深度融合,以用户触手可及的交互形式,赋能药物设计、材料设计等相关领域。

们也正在进一步改进和迭代下一代Uni-Mol,非常欢迎感兴趣的伙伴加入我们,共同建设新一代AI4S领域的基础设施。

关于Bohrium®

Bohrium®是深势科技打造的微尺度科学计算云平台,深度优化第一性原理计算、分子动力学等微尺度科学计算算法与软件,提供海量高性能算力与高效便捷的计算模拟环境。Bohrium®致力于打造团队协作式的科研平台,以赋能微尺度科学研究与工业设计。

通过对从理论到实践、从需求到解决方案的不断优化和理解,Bohrium®希望成为最方便老师教学的平台、最方便学者科研的平台,让教师从此有更多精力专注于教学,让学者从此有更多精力专注于科研,解放科学家们的生产力。

Bohrium®官方网站:https://bohrium.dp.tech/
如有相关问题,欢迎垂询[email protected]体验

关于深势科技

深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。

我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了Bohrium®微尺度科学计算云平台、Hermite®药物计算设计平台等微尺度工业设计基础设施,颠覆了现有研发模式,打造“计算引导实验、实验优化设计”的全新范式,为药物、材料领域带来极具突破性的计算模拟及设计工具。

深势科技是国家高新技术企业、北京市“专精特新”中小企业,总部位于北京,并在上海、深圳、海口等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
直播间里的AI主播,能否卷出一片新天地?Eruope 2023首销 3699 元,荣耀推出 MagicBook X 14 2023 笔记本 16GB+512GB 版本伦敦大学旁买套房!UCL/KCL/LSE房源更新ICLR 2023 放榜!31.8%的接受率,你中了吗?ICLR 2023 | 3D UX-Net:超强的医学图像分割新网络暖炸!多伦多一秒入春飙升至14°C!但隔夜暴跌29°C!天气比过山车刺激荷兰莱顿大学Snaar-Jagalska和Bonnet教授联合招收23年秋季PACT/GBM方向CSC博士生ICLR 2023 | UniKGQA: PLM+KG新架构,同时适配检索和推理!ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成印度电影《RRR》观后感(1)转:2023 回国探亲(5)ICLR 2023 | HomoDistil:蒸馏和剪枝在知识传递上的有机结合大家过年好!年夜饭来了:-)【惠宜美高】惠宜学子成功补录 Cardigan Mountain School 和 The Fenn School!ICLR 2023 | 高分论文!上海交大提出H2RBox:旋转目标检测新网络ICLR2023 | 论文列表公布,5000 篇投稿,整体接收率为 31.8%Offer捷报 l 康奈尔材料科学与工程Offer+1!U.S. News专业排名第8!UWM学子跨专业无G超高难度圆梦藤校!国际要闻简报,轻松了解天下事(03​ICLR 2023 | LightGCL: 简单且高效的图对比学习推荐系统Corsair DOMINATOR PLATINUM RGB 64GB (2x32GB) DDR5 DRAM 5200MHz【南北碰碰胡】# 26南方 + 《恭喜恭喜》+ 广东煎堆油角2023 QS学科排名出炉:美国高校逆天屠榜,康奈尔成最大黑马...“设计公司”麦当劳又出平面设计新作!ICLR 2023 | DIM-SLAM:首个实现神经隐式稠密重建的RGB-SLAM「CPI」超进化!美联储为了加息换3个指标?摘清责任才是真2023 春 祝姐妹们周末快乐!稀疏模型最新进展!马毅+LeCun强强联手:「白盒」非监督式学习|ICLR 2023蛋白设计新时代!Science: 开发出基于强化学习的蛋白结构设计方法ICLR 2023论文列表公布,有机构一口气中20多篇走资派玩资产阶级法权深入人心Palo Alto Hills Golf & Country Club高尔夫乡村俱乐部祝福与期待——除夕遐想ICLR 2023 | 阿里达摩院开源人脸检测新框架DamoFDMeta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星“回环之歌”,点燃新天地艺术“篝火” | 视频2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一基于无标注网络驾驶视频,自动驾驶策略预训练新方法 | ICLR 2023ICLR 2023 | MocoSFL: 低成本跨用户联邦自监督学习CPI超进化!美联储为了加息换了3个指标?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。