Redian新闻
>
20万张图片训练出医用AI大模型,斯坦福团队整理16年来社交网络数据并建库,使用图像或文本即可检索类似病例

20万张图片训练出医用AI大模型,斯坦福团队整理16年来社交网络数据并建库,使用图像或文本即可检索类似病例

公众号新闻

下面这张图是 2023 年 Nature Medicine 9 月刊的“封面故事”。从这张封面图里,可以直观地感受到 20 多万张来源于 Twitter(现名 X)的病理医学图片。利用这些图片,美国斯坦福大学团队研发一款名为 PLIP(pathology language–image pretraining)的 AI 模型。


(来源:Nature Medicine


2023 年 4 月,该论文最先在预印本平台 bioRxiv 上线。上线之后数月之内,PLIP 模型就获得大约 25000 次的下载量。


预计在未来几年内,PLIP 模型可以产生多种应用前景:


首先,PLIP 模型可以针对病理图像的不同区域进行自动分类,从而提高诊断效率。


其次,PLIP 模型可以充当一种教育工具,让病理学实习生和医生通过图像或文本搜索检索相似病例,从而提高学习效率。


此外,PLIP 模型还有助于科研人员寻找病理图像资料,从而在研究病理医学时构建更好的知识蓝图。整体来看,该模型对于优化疾病诊断、知识共享和医学教育都有着较大价值。


2022 年,大型语言模型经历了快速进展。可以预见的是,未来的医学图像分析将不仅仅依赖于单一数据类型例如仅仅依赖图像,而是将通过多模态数据比如视觉和语言来实现更高效的分析结果。


2022 年夏,本次课题组研究了 OpenAI 在 CLIP 模型(Contrastive Language-Image Pre-Training)及其在对比学习上的成果,并了解到对于多模态医学数据的联合学习来说,这种对比学习方法可以起到一定助力。


Twitter 上,许多医生经常会发布带有详细标注的高质量医学图片。当把 Twitter 上的医学图像、视觉模型、语言模型、以及对比学习串联起来,也意味着将不同模态的数据和训练方法串联了起来,借此就能实现此前难以达成的机器学习能力。


在上述思路的启发之下,该团队构思了这一课题。2022 年下半年,研究人员整理了自 2006 年以来累计 16 年的社交网络数据。随后,他们对数据进行预处理和质量控制,并于 2023 年初构建出高质量的 OpenPath 数据库。


接着,他们使用斯坦福计算集群对 OpenPath 进行训练,借此训练出来最终的 PLIP 模型。


最终,相关论文以《使用 Twitter 医学图像进行病理图像分析的可视化语言基础模型》(A visual–language foundation model for pathology image analysis using medical Twitter)为题发在 Nature Medicine(IF 82.9),斯坦福大学博士后黄治是第一作者,斯坦福大学教授 James Zou 担任通讯作者 [1]。


图 | 相关论文(来源:Nature Medicine


对于本次论文,他们也收到了来自同行的高质量评价。比如,以色列特拉维夫大学艾多·沃尔夫(Ido Wolf)博士表示:“这篇论文里有很多令人惊奇的地方。1、研究的民主化:网络上的信息对每个人都是开放的。2、数据量:数据库几乎是无限的。3、不需要监管和伦理批准:信息已经在线并向每个人开放。4、所能使用的数据、以及模型的方法是无穷的。”


(来源:Nature Medicine


缘何优于 OpenAI 的 CLIP 模型?


你可能会好奇,那些参与 PLIP 模型训练的图片是如何筛选的?研究人员表示:“是基于美国和加拿大病理学会在 2016 年倡议的医学 Twitter 标签,通过严格的数据过滤从 Twitter 及其他社交网络上选择的。既能保证数据具备较高的质量,又尽可能地涵盖更广的信息。”


不过,在收集数据的过程中,他们也意识到很多病理图片之所以会被分享到 Twitter 上,是因为医生们觉得这些数据非常有学习价值,或者是非常经典的案例,又或者是比较罕见的病例。所以,这样的病理图像-文本数据,与其他 AI 模型的数据集有着很大不同。


据介绍,PLIP 模型的基本原理在于:对大量病理学图片、以及与其对应的自然语言描述进行监督训练,从而学习图像和文本之间的关联性,进而输出对于新图片的分类,以及根据文本或图片检索相似的病理案例。


不同于 OpenAI 的 CLIP 模型,PLIP 模型的主要差异在于利用大量的高质量病理学图片以及自然语言描述进行预训练,因此它对病理图片背后的语义知识有着更深入的理解。


而由于没有深入地学习医学图片,所以 CLIP 模型对于病理图像的理解能力相对欠佳。研发此次 PLIP 模型的斯坦福团队表示:“通过实验结果也不难看出,PLIP 模型在病理医学任务上大幅领先 CLIP 模型。”


PLIP 模型的性能之所以更好,主要在于它利用大量结构化的病理图像-文本对来进行训练。这些图像-文本对虽然来自于社交网络,但是该课题组仍然进行了非常严格的数据预处理和筛选,借此涵盖出几十种不同器官类型和染色模式,确保能够使用一批高质量、被认真标注过的数据来帮助模型进行学习。


通过学习高质量的数据,PLIP 模型可以更好地理解病理图像背后的语义知识,从而在各种下游任务中表现得更为出色。


PLIP 模型的输出结果也比较直观,且具备较好的用户友好度。和 OpenAI 的 CLIP 模型一样的是,PLIP 模型对于文本或图片的输出都是一个向量。即它可以通过对比学习,来找到和目标输入最接近的图片,因此其输出结果可以直接被用户读懂。


另外,PLIP 模型不仅可以为新的病理图片进行分类,还可以让用户通过图像或自然语言搜索来检索相似案例,从而促进知识共享。


同时,PLIP 模型主要是用于图像分类和检索,而不是生成文本。由于它的核心任务不是文本生成,因此“捏造”文本的风险相对较低。由于检索结果都是来自于真实且由医生提供的数据,所以具备较高的可信度。


本次论文发表之后,也有很多同行好奇收集社交网络的数据是否符合相关政策和规定。对此该团队表示:“2022 年我们得到了 Twitter 的教育 API(Educational API),在数据挖掘、数据收集、数据保存的过程中,完全遵守各个公司的相关规定。我们也咨询了律师,确保了本次工作完全符合版权法的规定。”


(来源:Nature Medicine


此前相关成果曾获本校投资


下一步,他们将收集更多数据来训练更大的模型。目前,他们正在收集的数据预计比 OpenPath 数据集大出几十倍。其次,他们将对 PLIP 模型进行优化和拓展,尤其将在更多医学细分领域之中开展应用。再次,他们还打算探索如何将 PLIP 与其他 AI 技术结合,以提供精确度更高、功能更多的医学图像解决方案。


此外,考虑到 PLIP 在教育方面的应用,他们还计划开发一个面向医学教育者和学生的在线平台,让他们能够更方便地访问相关资源、以及学习病理知识。


另据悉,担任论文一作的黄治,其本科和博士先后毕业于西安交通大学和美国普渡大学。求学过程之中,他逐渐对医学数据产生浓厚的兴趣,希望通过 AI 算法帮助人们解决临床问题和科研问题。


图 | 黄治(来源:黄治


2021 年,他加入斯坦福大学从事博士后研究,师从 James Zou 教授和托马斯·蒙提尼(Thomas Montine)教授。


除了本次论文之外,他还和导师开发了 nuclei.io 人工智能病理学标注和分析平台,后被选为“2022 年度斯坦福医学院创新催化剂”九大创新产品之一,并获得了斯坦福大学的投资。


参考资料:

1.Huang, Z., Bianchi, F., Yuksekgonul, M.et al. A visual–language foundation model for pathology image analysis using medical Twitter. Nat Med 29, 2307–2316 (2023). https://doi.org/10.1038/s41591-023-02504-3


运营/排版:何晨龙


由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅:全球突破性技术创新与未来趋势(20 周年珍藏版)》已开售!点击下方海报可购买图书!!


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成每一刻都是幸福硬核观察 #1164 艺术家使用图像投毒工具反击生成式人工智能为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型庄子与屈原,你会选择谁的人生?小鹏人形机器人首秀,明年或现身门店卖车;波士顿动力使用ChatGPT训练出导游机器狗;联想AI PC明年9月上市丨AI周报Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型赵丽颖突然官宣喜讯!全网炸了:10年了图片图片图片我们公开吧……初级年薪$21W,最快20天拿OFFER,社交网络巨头放出大量校招岗位!一种新的数据恢复系统成功检索了气球望远镜图像MetaMath:新数学推理语言模型,训练大模型的逆向思维谁干的?咋干的?大美和二美(二十七) - 起腻纽约10月去哪逛 | 吐血整理16大美食娱乐活动,畅玩金秋!文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型自研BenbenGPT垂直社交大模型,智能社交平台「BenBen」获千万级种子轮融资|36氪首发免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!这套全网最齐全的SU构建库在一线设计院传疯了!(附神器下载)科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax一句话让AI训练AI!20分钟微调羊驼大模型,从数据收集到训练全包了推理1760亿参数的BLOOMZ,性能时延仅3.7秒 | 最“in”大模型抖音同款、2023 必看:火山引擎团队整理的“易复用”的音视频处理经验都在这了MIT推出拾物机器人「最强辅助」,少量训练样本即可实现自然语言控制1句指令+5美元+20分钟,就能训练出小型专业模型,Prompt2Model了解一下IJCAI 2023 | 清华提出:具有显式位置增强的鲁棒场景文本图像超分辨率网络上古纯文本社交网络 USENET 涅槃重生 | Linux 中国动嘴让梵高神作动起来!朱俊彦团队最新AI模型,文本可控河流方向,电影细腻质感全现LK-99超导机理,类似杨超越,畅通不足斯坦福招生官:“我们想要寻找能够做出改变的人” | 写在斯坦福R1截止日
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。