Redian新闻
>
多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告

多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告

公众号新闻




在科学研究及其应用中,科学文献分析的重要性不言而喻,它使研究人员得以在前人的基础上进行进一步的探索。然而,随着科学的快速迭代发展,科学文献的数量急剧增加,使得深入分析文献的难度和所需的时间大幅提升。
为了提高信息检索的效率,SciFinder 和 Reaxys 等专业的科学文献数据库应运而生。然而它们的作用仅限于普通的检索,缺乏信息提取和知识理解的能力,用户仍需阅读和分析检索到的文档,以提取确切答案。大型语言模型如 ChatGPT 的出现,标志着自然语言处理演进的重要里程碑。这些模型彻底改变了从文档中提取文本信息的方式,能够利用提取的内容直接获得答案。尽管它们在提取文本方面表现出色,但现有的大模型主要设计用于文本提取,常常难以理解科学文献中固有的多模态内容,如表格、图表、分子结构、化学反应等。
为了应对这一挑战,深势科技此前推出了 Uni-Finder 的产品内测,一款先进的文献和专利信息处理的引擎产品。继该产品发布后,我们持续致力于优化产品背后的核心算法——Uni-SMART(Universal Science Multimodal Analysis and Research Transformer),这是一个为深入理解多模态科学文献而设计的创新模型。同时,我们设计了 SciAssess (SciAssess: Benchmarking LLM Proficiency in Scientific Literature Analysis),一个跨领域、高质量的科学文献分析能力评测方案,旨在全面、客观地评估 Uni-SMART 的能力。目前,Uni-SMART 和 SciAssess 的最新技术报告已在 ArXiv 公开。其中,Uni-SMART 被 HuggingFace 官方的 Daily Papers 收录,且短短几小时便冲上了榜上第一名!

Uni-SMART 模型


Uni-SMART 使用了广泛的科学文献数据源,包括专利、科学出版物、新闻文章、市场报告等。并采用了主动学习(Active learning)的方法来不断增强模型的能力:

1. 多模态学习 (Multimodal Learning):在初始阶段,模型通过较少的多模态数据进行训练,以识别和提取科学文献中的各种信息元素,并将这些信息以序列化的形式进行输出,该序列化结果中包含了文本和多模态信息。
2. 大模型有监督微调 (LLM SFT):利用上一步产生的序列化输出以及对应的 QA 对,对大模型进行有监督微调,增强大模型处理和理解多模态信息的能力。
3. 用户反馈 (User Feedback):经过 SFT 增强的大模型部署到实际应用中,期间,我们从明确给予同意的内部用户中收集反馈。收到正反馈的样本将被筛选并随后进入数据增强环节,而收到负反馈的样本则需经过专家标注后进入到数据增强环节中。
4. 专家标注 (Expert Annotation):获得负反馈的样本会由内部的领域专家进行细致的标注,确保模型能够从这些错误中学习并改进,半自动化工具将在这个过程中提供帮助以提高标注效率。负反馈的案例通常分为两类:一类是多模态识别错误导致的,第二类是大模型的理解或推理错误导致的。通过细致的错误类型分析,从而促进更有针对性的改进。
5. 数据增强 (Data Enhancement):将专家标注后的数据,以及部分正反馈的样本增加到模型的训练数据中,实现数据集的不断扩充。不断重复这一迭代过程,以此来优化 Uni-SMART 的整体性能。

这种循环迭代的流水线显著提升了 Uni-SMART 在各种任务中的表现,如信息提取、复杂元素识别、科学文献理解和分析,以及多模态元素的理解和推理等。

科学文献多模态能力评估

我们设计了一个专门评测科学文献理解的评估方法 SciAssess,旨在对 LLM 在文献理解的能力进行全面、客观、科学的评估。评测的数据包含了广泛的学科,包括化学、材料、药物发现等,并在每个学科中挑选了各自有代表性的任务。我们使用 SciAssess,将 Uni-SMART 和其他主流的大型语言模型进行了横向对比,定量评估他们在科学文献多模态元素理解的能力。

  • 不同模型在处理包含表格任务的结果对比

  • 不同模型在处理包含图表任务的结果对比

  • 不同模型在处理包含分子结构任务的结果对比

  • 不同模型在处理包含反应式任务的结果对比

从上述评估结果可以看出,Uni-SMART 在处理包含表格、图表、分子结构以及化学反应式等多模态元素任务中,相较于其他主流大模型如 GPT-4、GPT-3.5 以及 Gemini,展现出了显著的优势。在绝大多数的评估任务中,Uni-SMART 都处于领先地位。这些结果不仅证明了 Uni-SMART 在理解科学文献多模态元素方面的卓越性能,也展现了它在处理专业科学内容方面的强大能力。通过 Uni-SMART,我们可以期待在科学文献的深度理解和应用上实现更大的突破,加速科学发现的过程。

实际应用案例


1. 专利侵权判定

在研究和工业领域,正确理解和应用专利信息变得日益重要。尤其是在化学和药物开发领域,准确判断一个化合物是否受现有专利保护对于避免潜在的专利侵权至关重要。在这个案例中,我们利用 Uni-SMART 分析特定化合物是否受某一篇专利所保护。如图所示,通过考虑分子的骨架和取代基等多种因素,模型正确地判断出该化合物是否属于该专利的保护范围,展示了其强大的跨模态信息处理能力。

2. 温度控制图解析

在科学文献中,图表是传递复杂数据和实验结果的关键工具,理解图表的信息对于深入理解文章细节起着至关重要的作用。在这个案例中,我们利用 Uni-SMART 对金属注射成型温控曲线进行分析。如图所示,Uni-SMART 准确地描述了曲线的变化过程,精准地识别出其中的关键数据点,并按照用户指示将这些信息转换成了表格的格式。此外,在淬火率的计算过程中,模型还展示出了强大的数学计算和逻辑推理能力。

更多信息


官方链接:

https://uni-smart.dp.tech/

论文链接:
https://arxiv.org/abs/2403.10301
产品试用链接:
https://uni-finder.dp.tech/
benchmark 论文链接:
https://arxiv.org/abs/2403.01976
benchmark 代码仓库:
https://github.com/sci-assess/SciAssess
Bohrium® 小程序地址:
#小程序://Bohrium/z7YFPNP8wlQt5e
         

推荐关注




关于深势科技

深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和多尺度的模拟仿真算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。

我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了Bohrium®科研云平台、Hermite®药物计算设计平台、RiDYMO®难成药靶标研发平台及 Piloteye®电池设计自动化平台等工业设计与仿真基础设施,颠覆了现有研发模式,打造“计算引导实验、实验优化设计”的全新范式。

深势科技是国家高新技术企业、国家专精特新“小巨人”企业,总部位于北京,并在上海、深圳等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。


点击“阅读原文”了解更多

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V大模型助力具身智能、电池研发与蛋白质研究,讯飞、深势科技、字节专家齐聚分享|AICon手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准对话深势科技张林峰:北大90后独角兽公司,要做微观世界的Sora?​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLM北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生AI早知道|百度即将发布全新App腾讯元宝;行业首发多模态大模型辅助视障人士李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术文末送书 | 中山大学HCP实验室专著《多模态大模型》重磅发布纽约琐事(二)事事难料「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4荐书丨中山大学 HCP 实验室专著《多模态大模型》重磅发布一家之煮:当Pecan决定分手时上海AI Lab开源首个可替代GPT-4V的多模态大模型中国股市是什么“面”?谷歌深夜爆最强复仇杀器,超大杯Gemini Ultra硬刚GPT-4!19.99美元包月,84页技术报告更新将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题《早晨的故乡》&《橱窗》腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源我的健康厨房 - 我是如何控制和管理血糖的GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评王小川旗下百川智能千亿大模型Baichuan 3,中文评测超越GPT-4;美国启动国家AI计划推动开放式AI研究丨AIGC日报未央播报 | 央行进一步推动优化支付服务工作 OpenAI发布多模态大模型GPT-4o
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。