Redian新闻
>
多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告

多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告

公众号新闻




在科学研究及其应用中,科学文献分析的重要性不言而喻,它使研究人员得以在前人的基础上进行进一步的探索。然而,随着科学的快速迭代发展,科学文献的数量急剧增加,使得深入分析文献的难度和所需的时间大幅提升。
为了提高信息检索的效率,SciFinder 和 Reaxys 等专业的科学文献数据库应运而生。然而它们的作用仅限于普通的检索,缺乏信息提取和知识理解的能力,用户仍需阅读和分析检索到的文档,以提取确切答案。大型语言模型如 ChatGPT 的出现,标志着自然语言处理演进的重要里程碑。这些模型彻底改变了从文档中提取文本信息的方式,能够利用提取的内容直接获得答案。尽管它们在提取文本方面表现出色,但现有的大模型主要设计用于文本提取,常常难以理解科学文献中固有的多模态内容,如表格、图表、分子结构、化学反应等。
为了应对这一挑战,深势科技此前推出了 Uni-Finder 的产品内测,一款先进的文献和专利信息处理的引擎产品。继该产品发布后,我们持续致力于优化产品背后的核心算法——Uni-SMART(Universal Science Multimodal Analysis and Research Transformer),这是一个为深入理解多模态科学文献而设计的创新模型。同时,我们设计了 SciAssess (SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis),一个跨领域、高质量的科学文献分析能力评测方案,旨在全面、客观地评估 Uni-SMART 的能力。目前,Uni-SMART 和 SciAssess 的最新技术报告已在 ArXiv 公开。其中,Uni-SMART 被 HuggingFace 官方的 Daily Papers 收录,且短短几小时便冲上了榜上第一名!

Uni-SMART 模型


Uni-SMART 使用了广泛的科学文献数据源,包括专利、科学出版物、新闻文章、市场报告等。并采用了主动学习(Active learning)的方法来不断增强模型的能力:

1. 多模态学习 (Multimodal Learning):在初始阶段,模型通过较少的多模态数据进行训练,以识别和提取科学文献中的各种信息元素,并将这些信息以序列化的形式进行输出,该序列化结果中包含了文本和多模态信息。
2. 大模型有监督微调 (LLM SFT):利用上一步产生的序列化输出以及对应的 QA 对,对大模型进行有监督微调,增强大模型处理和理解多模态信息的能力。
3. 用户反馈 (User Feedback):经过 SFT 增强的大模型部署到实际应用中,期间,我们从明确给予同意的内部用户中收集反馈。收到正反馈的样本将被筛选并随后进入数据增强环节,而收到负反馈的样本则需经过专家标注后进入到数据增强环节中。
4. 专家标注 (Expert Annotation):获得负反馈的样本会由内部的领域专家进行细致的标注,确保模型能够从这些错误中学习并改进,半自动化工具将在这个过程中提供帮助以提高标注效率。负反馈的案例通常分为两类:一类是多模态识别错误导致的,第二类是大模型的理解或推理错误导致的。通过细致的错误类型分析,从而促进更有针对性的改进。
5. 数据增强 (Data Enhancement):将专家标注后的数据,以及部分正反馈的样本增加到模型的训练数据中,实现数据集的不断扩充。不断重复这一迭代过程,以此来优化 Uni-SMART 的整体性能。

这种循环迭代的流水线显著提升了 Uni-SMART 在各种任务中的表现,如信息提取、复杂元素识别、科学文献理解和分析,以及多模态元素的理解和推理等。

科学文献多模态能力评估

我们设计了一个专门评测科学文献理解的评估方法 SciAssess,旨在对 LLM 在文献理解的能力进行全面、客观、科学的评估。评测的数据包含了广泛的学科,包括化学、材料、药物发现等,并在每个学科中挑选了各自有代表性的任务。我们使用 SciAssess,将 Uni-SMART 和其他主流的大型语言模型进行了横向对比,定量评估他们在科学文献多模态元素理解的能力。

  • 不同模型在处理包含表格任务的结果对比

  • 不同模型在处理包含图表任务的结果对比

  • 不同模型在处理包含分子结构任务的结果对比

  • 不同模型在处理包含反应式任务的结果对比

从上述评估结果可以看出,Uni-SMART 在处理包含表格、图表、分子结构以及化学反应式等多模态元素任务中,相较于其他主流大模型如 GPT-4、GPT-3.5 以及 Gemini,展现出了显著的优势。在绝大多数的评估任务中,Uni-SMART 都处于领先地位。这些结果不仅证明了 Uni-SMART 在理解科学文献多模态元素方面的卓越性能,也展现了它在处理专业科学内容方面的强大能力。通过 Uni-SMART,我们可以期待在科学文献的深度理解和应用上实现更大的突破,加速科学发现的过程。

实际应用案例


1. 专利侵权判定

在研究和工业领域,正确理解和应用专利信息变得日益重要。尤其是在化学和药物开发领域,准确判断一个化合物是否受现有专利保护对于避免潜在的专利侵权至关重要。在这个案例中,我们利用 Uni-SMART 分析特定化合物是否受某一篇专利所保护。如图所示,通过考虑分子的骨架和取代基等多种因素,模型正确地判断出该化合物是否属于该专利的保护范围,展示了其强大的跨模态信息处理能力。

2. 温度控制图解析

在科学文献中,图表是传递复杂数据和实验结果的关键工具,理解图表的信息对于深入理解文章细节起着至关重要的作用。在这个案例中,我们利用 Uni-SMART 对金属注射成型温控曲线进行分析。如图所示,Uni-SMART 准确地描述了曲线的变化过程,精准地识别出其中的关键数据点,并按照用户指示将这些信息转换成了表格的格式。此外,在淬火率的计算过程中,模型还展示出了强大的数学计算和逻辑推理能力。

更多信息


官方链接:

https://uni-smart.dp.tech/

论文链接:
https://arxiv.org/abs/2403.10301
产品试用链接:
https://uni-finder.dp.tech/
benchmark 论文链接:
https://arxiv.org/abs/2403.01976
benchmark 代码仓库:
https://github.com/sci-assess/SciAssess
Bohrium® 小程序地址:
#小程序://Bohrium/z7YFPNP8wlQt5e
         

推荐关注




关于深势科技

深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和多尺度的模拟仿真算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。

我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了Bohrium®科研云平台、Hermite®药物计算设计平台、RiDYMO®难成药靶标研发平台及 Piloteye®电池设计自动化平台等工业设计与仿真基础设施,颠覆了现有研发模式,打造“计算引导实验、实验优化设计”的全新范式。

深势科技是国家高新技术企业、国家专精特新“小巨人”企业,总部位于北京,并在上海、深圳等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。


点击“阅读原文”了解更多

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题荐书丨中山大学 HCP 实验室专著《多模态大模型》重磅发布北京/上海内推 | 小红书智能创作团队招聘多模态大模型算法工程师/实习生五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法《早晨的故乡》&《橱窗》ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V谷歌深夜爆最强复仇杀器,超大杯Gemini Ultra硬刚GPT-4!19.99美元包月,84页技术报告更新一家之煮:当Pecan决定分手时​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!文末送书 | 中山大学HCP实验室专著《多模态大模型》重磅发布王小川旗下百川智能千亿大模型Baichuan 3,中文评测超越GPT-4;美国启动国家AI计划推动开放式AI研究丨AIGC日报GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评北大等提出MoE-LLaVA:将多模态大模型稀疏化今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B世界顶尖多模态大模型开源!又是零一万物,又是李开复零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资AI早知道|苹果播客应用新增转录功能;上海智能实验室推图文多模态大模型;国产短剧AI换脸出海降本增效超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源纽约琐事(二)事事难料对话深势科技张林峰:北大90后独角兽公司,要做微观世界的Sora?我的健康厨房 - 我是如何控制和管理血糖的百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4大模型新王诞生!Claude 3首次超越GPT4中国股市是什么“面”?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。