Redian新闻
>
Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型

Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型

公众号新闻
Bringing medical advances from the lab to the clinic.

关键词:病理图像;人工智能;CLIP;Nat Med

存有源文件的数据库已经成为重要的资源,在人工智能发展的情况下尤为如此。
基于既往确诊资料的病例库,更是医学人工智能化的珍贵资料。
但与此同时,基于医院的病例资料基本上都是标准化的术语;利用这些术语训练出来的人工智能,很难理解自然语言环境下的查询。
加上获取基于医院的病例资料极为困难;利用公开的网络学术交流资源开发自然语言查询模型就成为可行且更有意义的途径。

2023年8月17日,斯坦福James Zou团队在自然医学Nature Medicine, IF:87.244)发表题为“A visual–language foundation model for pathology image analysis using medical Twitter”的论文,首次展示了利用推特开发“病理图像文本对应”的自然语言-图像预训练模型的成功案例


研究的立项依据:

随着人工智能技术的迅猛进展,计算病理学已逐渐走入临床和科研领域的前沿。虽然已有诸如PanNukeLizardNuCLS等高质量数据集,但因病理学领域的多样性及自然语言标注的需求,对更广泛、多样化的数据集的需求日益凸显。考虑到超过8000种疾病的分类随着疾病分子与细胞基础的知识进展而不断演变,构建能服务于多种目的的通用病理学AI系统显得至关重要

近年来,互联网上,特别是社交媒体如Twitter(已被Elon Musk改名为X,编者注)上,有许多去身份化的病理学图像被医生和专家分享和讨论。这些公开数据不仅为病理学界提供了宝贵的知识共享和教育资源,还为我们带来了开发医学AI的巨大潜力

研究方法和主要结果:

本课题的研究者利用病理学主流标签在推特(Twitter)和互联网上汇总了243,375张公开病理图像,经过严格的数据质量筛选,最终收录208,414张病理图像与其文本描述,命名为“OpenPath”。

OpenPath是配有高质量自然语言文本描述的大规模公开病理图像数据集。基于此,James Zou团队进一步开发了一种基于图像文本对比模型(CLIP)的病理学语言-图像预训练模型(PLIP)
不同于以往的病理医学研究,该模型整合了全面的自然语言标注进学习过程中,使模型具有理解图像基于语义的知识能力,进而执行各种下游任务。

该研究首先完整描述了OpenPath数据集,然后提出了在OpenPath的图像和标题上进行对比学习的PLIP模型。
综合评估显示,PLIP模型能够通过零样本学习适应新的医学文本。此外,PLIP还可以作为一个通用的病理图像编码器,捕获更好的病理图像表示,从而提高了各种组织类型和学习任务的性能。
最后,PLIP可以实现病理图像的灵活搜索功能,为临床医生和病理学实习生提供了强大的教育和信息共享工具。
该研究还系统地评估了其根据文本或图像输入检索相关病理图像的能力,这为知识共享带来了巨大的潜力。

这篇文章最大的创新点之一在于图像收集。
在收集高质量医学图像与文本上,该团队采用了非常严格的数据筛查方式,通过严格控制图像和文字质量,来构建一个信息完备,图像清晰的数据集。
▼下图展示了这篇文章收集Twitter数据的流程。

对于该数据,以色列特拉维夫大学的Ido Wolf博士在Twitter上做出了如此评价:
为了构建一个可靠的病理学数据库,你需要大量的样本。在这篇文章中,科学家们没有向医院支付费用,而是直接打开了Twitter找到了20多万个由医生精心标注与分享的医学图像样本并构建了当今用于研究、学习和分类疾病的最智能的病理学数据库以及最佳的模型之一。这篇文章里有很多令人惊奇的地方:
1. 研究的民主化:网络上的信息对每个人都是开放的
2. 数据量:数据库几乎是无限的。
3. 不需要监管和伦理批准:信息已经在线并向每个人开放。
4. 使用数据和模型的方法是无穷的。

在模型训练上,该团队采用了目前最主流的OpenAI CLIP (文本-图像配对)的对比学习方案,将预训练后的CLIP模型直接对OpenPath进行进一步学习,从而帮助模型获得病理图像和文字的知识。
通过训练,该团队在huggingfaceGithub上开源了第一个病理医学图像-文字基础模型 – PLIP
▼下图展示了这篇文章模型训练的示意图。

在这项研究中,他们系统地评估了PLIP的零样本学习能力,这种能力可以在不需要重新训练的情况下大规模学习新的类别。
该团队通过将标签转化为句子,例如"tumor"转化为"An H&E image of tumor",在四种不同的外部数据集上进行了评估。
通过评估加权F1 score(这是一个结合了精确度和召回率的度量,同时考虑到类别的不平衡),他们的分析显示PLIP在所有外部数据集上均稳定地超越了基线的CLIP模型以及预测多数类别的结果。
对于零样本分类,PLIPF1 score0.565-0.832,而之前的对比性语言-图像预训练模型的F1 score仅为0.030-0.481
能获得如此高效的零样本学习能力,归功于PLIP对病理医学图像的优秀认知能力。

▼下图展示了PLIP模型对外部数据集Kather结直肠癌病理图像数据的理解能力。可以看到PLIP能在不学习该数据集的情况下就能很好地分辨肿瘤(TUM)等9种不同标签。

该团队发现,使用PLIP的视觉模型部分精调,可以实现更好的病理医学图像分类能力
在与用同框架的Vision Transformer Base-32ViT-B/32)模型(在ImageNet上预训练)的比较下,如果仅用1%的原始数据训练,PLIP模型最高能超过ViT-B/3220%  F1 score
这意味着今后学者可以直接使用PLIP对他们的医学图像数据进行精调,即使很小的数据集,PLIP也能帮助他们获得很好的准确率。

▼下图展示了用PLIP进行精调和与用同框架的ViT-B/32(在ImageNet上预训练)的性能比较。

最后,PLIP提供了一个灵活的病理图像搜索引擎,它可以为临床医生和病理培训生提供一个强大的教育和信息分享工具。斯坦福团队进行了系统的图像检索评估,以展示其通过文本或图像输入检索相关病理图像的能力。图像检索具有巨大的知识分享潜力。
团队在其网站中(https://tinyurl.com/webplip)所展示,PLIP可以理解语义和相互关联的知识,例如“Breast tumor surrounded by fat” (“被脂肪围绕的乳腺肿瘤”)(如下图)。这种能力为探索和检索大型病理数据集提供了一个强大的工具,允许用户有效、准确地识别满足特定标准的相关图像。
▼下图展示了PLIP通过文本检索图像的能力。

而且检索人还可以直接点击链接到原始发图的推特那里获取原始资料、留言或者讨论。

不过,这个数据库对于病理资料收集的完整性和系统性缺陷也同样存在,也就是说推特上没有(但临床不少见)的病理图像,就不会出现在这个OpenPath数据库中,也就无法被搜索到。
比如我搜索自己感兴趣的胸腺瘤的时候,系统并没有给我通过胸腺瘤的病理图片。
(Dr. Mark在网站上做的验证)

此外,图像到图像的检索可以用来检索与目标图像输入相似的相关病理图像
例如,Dr. Mark在PathologyOnline网站上下载了一张典型的病理图像,然后通过image to image做了验证,该系统给出了与之相似的病理图像,而非这张图片实际诊断的thymoma。
▼下图展示了PLIP通过图像检索图像的能力。
(Dr. Mark在PathologyOnline下载了一张thymoma图像,在该网站验证)

本研究的临床意义:

与数字病理学中的传统机器学习方法不同,PLIP模型是一个通用解决方案,可以应用于广泛的任务,包括适应新数据并为任何图像输入提供零样本预测。
此外,这种零样本能力也能适应病理诊断中不断发展的诊断标准。将PLIP图像编码器的微调结果与固定任务的深度学习模型进行比较,PLIP在四个验证数据集上都展现出了更好的性能。特别是当使用较少的训练数据进行训练时,这一点尤为显著,凸显了PLIP表征学习的优势。
PLIP模型在多样化的学习任务中的进步得益于其公开可用数据集OpenPath的构建,该数据集包含配对的病理学图像和文本描述。
该团队预期,开源的PLIPOpenPath都将使医学AI社区受益,因为它们可以推进病理学AI的进一步进展,建立在这一基础模型上,并通过PLIP搜索引擎促进医学知识的分享。

由于这些创新性,
·这篇文章已经被自然医学(Nature Medicine)选为9月刊的封面故事。
·这篇文章自4月预印版刊登以来,迅速得到了医学和人工智能行业的关注。在Twitter上收获了非常多的关注与好评。医生们通过该团队的数据集找到了几年前他们在Twitter上精心标注的数据,感慨网络和AI的力量。也开玩笑说“人工智能学得比我们要狠多了”。
·这篇文章自4月预印版刊登以来,在医学图像领域得到了广泛关注,目前已经有多篇预印版文章借鉴和引用该团队的工作。在病理医学图像分析领域提供了一个新颖的学习思路。

与此同时,按照我的导师每次在其博士毕业答辩时说的一句话“与其说是解决了一个问题,不如说是提出了更多亟待解决的问题”。
这个系统仍有很多亟待解决和提升的问题,而这些问题需要通过专业人士(如临床医生)密集使用来发现、反馈和提升
建立起使用和反馈机制,是该系统在几年后获得高质量实用的基础。

正如我们从5年前同样开始使用和训练的文献鸟(同样由斯坦福的学者研发),我们已经发布了上千条大数据分析报告,使用中发现了很多问题,读者也给了我们很多反馈;由此找到和消灭了非常非常多的bugs,并总结出了在应用文献鸟时避免错误、提升分析质量的方法。

我们也同样期待,已经落地的“病理图像文本对应”的自然语言-图像预训练,也快速成长到稳定且高效的辅助诊断系统,早日去掉beta标识。
试用网址在此:
https://tinyurl.com/webplip

参考资料来源:
【1】 Huang Z, Bianchi F, Yuksekgonul M, Montine TJ, Zou J. A visual-language foundation model for pathology image analysis using medical Twitter. Nat Med. 2023 Aug 17. doi: 10.1038/s41591-023-02504-3. Epub ahead of print. PMID: 37592105.


致敬本研究的团队:

第一作者Zhi Huang
共一作者Federico Bianchi
共同作者:Mert Yuksekgonul
共同作者Thomas J Montine

通讯作者James Zou

声明:
本公众号仅作已发表研究论文的数据分享和解读,仅供学术讨论,而不具临床指导意义。


本期编辑Henry,微信号healsan。助理:ChatGPT
Hanson临床科研团队,在美国的七位生物医学科学家主持并担任独立理事。主要通过大数据分析,分享生物医学前沿、发展趋势及对临床科研的启发;通过文献计量分析及报告,把握最新技术进展;交流SCI论文撰写、课题设计规范。只提供以数据为基础的客观报告,及专业、独立的思考。

点击👆,让更多人受益于生物医学科技进步

更多阅读:
(点击👆图片,进入自己感兴趣的专辑。或获得点击“资源”,浏览本公众号所有资源













微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升Twitter经典蓝鸟“飞了”?!Twitter从logo到域名全被马斯克全部改为“X”?#Accelerationism大模型竞争突然升级!亚马逊 CEO 亲自监督、组建新的核心技术团队,集中优势资源打造“最具野心”的大语言模型这么多年MIT华人博士生将ChatGPT搬进Jupyter,自然语言编程一站式搞定ACL 2023 | GLUE-X:基于分布外泛化的自然语言理解模型测试集650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目图片平台Shutterstock与OpenAI延续六年合作 允许DALL-E用图库作品训练模型2023地中海邮轮行 (二)威尼斯我们村的故事(第二故乡)ACL 2023|大模型时代,自然语言领域还有什么学术增长点?ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成Graphcore携手Pienso荣获CogX最佳创新类别的自然语言处理奖Cell Stem Cell | 何爱彬团队利用全景实时成像揭示流体力塑造囊胚发育过程​SIGIR 2023 | 基于图的预训练和提示来增强低资源文本分类病理诊断步入高阶智能时代,透彻未来发布病理大模型学习生成式大语言模型,东北大学自然语言处理实验室有一堂课给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源GitHub 变 Twitter?强“喂”新推荐算法引公愤,开发者从“编程乌托邦”被驱赶到了信息茧房人类创造的数据太贵了!开发者悄悄使用AI合成数据训练模型在线研讨会预告!主讲 AI 数字病理图像分析与生物医学成像基础方案建设LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttentionOPRO:利用LLM作为优化器,解决一系列用自然语言描述的任务20万张图片训练出医用AI大模型,斯坦福团队整理16年来社交网络数据并建库,使用图像或文本即可检索类似病例文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型大模型加持的机器人有多强,MIT CSAIL&IAIFI用自然语言指导机器人抓取物体VS Code内置JS减小20%;Python团队官宣下线GIL;Chrome替代品1.0发布;Twitter改名X | 周热点MIT推出拾物机器人「最强辅助」,少量训练样本即可实现自然语言控制清华系「自然语言编程神器」上新!支持100+种编程语言,效率upup智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体半山听雨
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。