Nat Med丨斯坦福团队利用twitter资源，开发出“病理图像文本对应”的自然语言-图像预训练模型

2023-08-19 22:08

Bringing medical advances from the lab to the clinic.

关键词：病理图像；人工智能；CLIP；Nat Med

存有源文件的数据库已经成为重要的资源，在人工智能发展的情况下尤为如此。

基于既往确诊资料的病例库，更是医学人工智能化的珍贵资料。

但与此同时，基于医院的病例资料基本上都是标准化的术语；利用这些术语训练出来的人工智能，很难理解自然语言环境下的查询。

加上获取基于医院的病例资料极为困难；利用公开的网络学术交流资源开发自然语言查询模型就成为可行且更有意义的途径。

2023年8月17日，斯坦福James Zou团队在自然医学（Nature Medicine, IF：87.244）发表题为“A visual–language foundation model for pathology image analysis using medical Twitter”的论文，首次展示了利用推特开发“病理图像文本对应”的自然语言-图像预训练模型的成功案例。

研究的立项依据：

随着人工智能技术的迅猛进展，计算病理学已逐渐走入临床和科研领域的前沿。虽然已有诸如PanNuke、Lizard和NuCLS等高质量数据集，但因病理学领域的多样性及自然语言标注的需求，对更广泛、多样化的数据集的需求日益凸显。考虑到超过8000种疾病的分类随着疾病分子与细胞基础的知识进展而不断演变，构建能服务于多种目的的通用病理学AI系统显得至关重要。

近年来，互联网上，特别是社交媒体如Twitter（已被Elon Musk改名为X，编者注）上，有许多去身份化的病理学图像被医生和专家分享和讨论。这些公开数据不仅为病理学界提供了宝贵的知识共享和教育资源，还为我们带来了开发医学AI的巨大潜力。

研究方法和主要结果：

本课题的研究者利用病理学主流标签在推特（Twitter）和互联网上汇总了243,375张公开病理图像，经过严格的数据质量筛选，最终收录208,414张病理图像与其文本描述，命名为“OpenPath”。

OpenPath是配有高质量自然语言文本描述的大规模公开病理图像数据集。基于此，James Zou团队进一步开发了一种基于图像文本对比模型（CLIP）的病理学语言-图像预训练模型（PLIP）。

不同于以往的病理医学研究，该模型整合了全面的自然语言标注进学习过程中，使模型具有理解图像基于语义的知识能力，进而执行各种下游任务。

该研究首先完整描述了OpenPath数据集，然后提出了在OpenPath的图像和标题上进行对比学习的PLIP模型。

综合评估显示，PLIP模型能够通过零样本学习适应新的医学文本。此外，PLIP还可以作为一个通用的病理图像编码器，捕获更好的病理图像表示，从而提高了各种组织类型和学习任务的性能。

最后，PLIP可以实现病理图像的灵活搜索功能，为临床医生和病理学实习生提供了强大的教育和信息共享工具。

该研究还系统地评估了其根据文本或图像输入检索相关病理图像的能力，这为知识共享带来了巨大的潜力。

这篇文章最大的创新点之一在于图像收集。

在收集高质量医学图像与文本上，该团队采用了非常严格的数据筛查方式，通过严格控制图像和文字质量，来构建一个信息完备，图像清晰的数据集。

▼下图展示了这篇文章收集Twitter数据的流程。

对于该数据，以色列特拉维夫大学的Ido Wolf博士在Twitter上做出了如此评价：

为了构建一个可靠的病理学数据库，你需要大量的样本。在这篇文章中，科学家们没有向医院支付费用，而是直接打开了Twitter，找到了20多万个由医生精心标注与分享的医学图像样本，并构建了当今用于研究、学习和分类疾病的最智能的病理学数据库以及最佳的模型之一。这篇文章里有很多令人惊奇的地方：

1. 研究的民主化：网络上的信息对每个人都是开放的。

2. 数据量：数据库几乎是无限的。

3. 不需要监管和伦理批准：信息已经在线并向每个人开放。

4. 使用数据和模型的方法是无穷的。

在模型训练上，该团队采用了目前最主流的OpenAI CLIP （文本-图像配对）的对比学习方案，将预训练后的CLIP模型直接对OpenPath进行进一步学习，从而帮助模型获得病理图像和文字的知识。

通过训练，该团队在huggingface和Github上开源了第一个病理医学图像-文字基础模型 – PLIP。

▼下图展示了这篇文章模型训练的示意图。

在这项研究中，他们系统地评估了PLIP的零样本学习能力，这种能力可以在不需要重新训练的情况下大规模学习新的类别。

该团队通过将标签转化为句子，例如"tumor"转化为"An H&E image of tumor"，在四种不同的外部数据集上进行了评估。

通过评估加权F1 score（这是一个结合了精确度和召回率的度量，同时考虑到类别的不平衡），他们的分析显示PLIP在所有外部数据集上均稳定地超越了基线的CLIP模型以及预测多数类别的结果。

对于零样本分类，PLIP的F1 score为0.565-0.832，而之前的对比性语言-图像预训练模型的F1 score仅为0.030-0.481。

能获得如此高效的零样本学习能力，归功于PLIP对病理医学图像的优秀认知能力。

▼下图展示了PLIP模型对外部数据集Kather结直肠癌病理图像数据的理解能力。可以看到PLIP能在不学习该数据集的情况下就能很好地分辨肿瘤（TUM）等9种不同标签。

该团队发现，使用PLIP的视觉模型部分精调，可以实现更好的病理医学图像分类能力。

在与用同框架的Vision Transformer Base-32（ViT-B/32）模型（在ImageNet上预训练）的比较下，如果仅用1%的原始数据训练，PLIP模型最高能超过ViT-B/32近20% 的 F1 score。

这意味着今后学者可以直接使用PLIP对他们的医学图像数据进行精调，即使很小的数据集，PLIP也能帮助他们获得很好的准确率。

▼下图展示了用PLIP进行精调和与用同框架的ViT-B/32（在ImageNet上预训练）的性能比较。

最后，PLIP提供了一个灵活的病理图像搜索引擎，它可以为临床医生和病理培训生提供一个强大的教育和信息分享工具。斯坦福团队进行了系统的图像检索评估，以展示其通过文本或图像输入检索相关病理图像的能力。图像检索具有巨大的知识分享潜力。

团队在其网站中（https://tinyurl.com/webplip）所展示，PLIP可以理解语义和相互关联的知识，例如“Breast tumor surrounded by fat” （“被脂肪围绕的乳腺肿瘤”）（如下图）。这种能力为探索和检索大型病理数据集提供了一个强大的工具，允许用户有效、准确地识别满足特定标准的相关图像。

▼下图展示了PLIP通过文本检索图像的能力。

而且检索人还可以直接点击链接到原始发图的推特那里获取原始资料、留言或者讨论。

不过，这个数据库对于病理资料收集的完整性和系统性缺陷也同样存在，也就是说推特上没有（但临床不少见）的病理图像，就不会出现在这个OpenPath数据库中，也就无法被搜索到。

比如我搜索自己感兴趣的胸腺瘤的时候，系统并没有给我通过胸腺瘤的病理图片。

（Dr. Mark在网站上做的验证）

此外，图像到图像的检索可以用来检索与目标图像输入相似的相关病理图像。

例如，Dr. Mark在PathologyOnline网站上下载了一张典型的病理图像，然后通过image to image做了验证，该系统给出了与之相似的病理图像，而非这张图片实际诊断的thymoma。

▼下图展示了PLIP通过图像检索图像的能力。

(Dr. Mark在PathologyOnline下载了一张thymoma图像，在该网站验证)

本研究的临床意义：

与数字病理学中的传统机器学习方法不同，PLIP模型是一个通用解决方案，可以应用于广泛的任务，包括适应新数据并为任何图像输入提供零样本预测。

此外，这种零样本能力也能适应病理诊断中不断发展的诊断标准。将PLIP图像编码器的微调结果与固定任务的深度学习模型进行比较，PLIP在四个验证数据集上都展现出了更好的性能。特别是当使用较少的训练数据进行训练时，这一点尤为显著，凸显了PLIP表征学习的优势。

PLIP模型在多样化的学习任务中的进步得益于其公开可用数据集OpenPath的构建，该数据集包含配对的病理学图像和文本描述。

该团队预期，开源的PLIP和OpenPath都将使医学AI社区受益，因为它们可以推进病理学AI的进一步进展，建立在这一基础模型上，并通过PLIP搜索引擎促进医学知识的分享。

由于这些创新性，

·这篇文章已经被自然医学（Nature Medicine）选为9月刊的封面故事。

·这篇文章自4月预印版刊登以来，迅速得到了医学和人工智能行业的关注。在Twitter上收获了非常多的关注与好评。医生们通过该团队的数据集找到了几年前他们在Twitter上精心标注的数据，感慨网络和AI的力量。也开玩笑说“人工智能学得比我们要狠多了”。

·这篇文章自4月预印版刊登以来，在医学图像领域得到了广泛关注，目前已经有多篇预印版文章借鉴和引用该团队的工作。在病理医学图像分析领域提供了一个新颖的学习思路。

与此同时，按照我的导师每次在其博士毕业答辩时说的一句话“与其说是解决了一个问题，不如说是提出了更多亟待解决的问题”。

这个系统仍有很多亟待解决和提升的问题，而这些问题需要通过专业人士（如临床医生）密集使用来发现、反馈和提升。

建立起使用和反馈机制，是该系统在几年后获得高质量实用的基础。

正如我们从5年前同样开始使用和训练的文献鸟（同样由斯坦福的学者研发），我们已经发布了上千条大数据分析报告，使用中发现了很多问题，读者也给了我们很多反馈；由此找到和消灭了非常非常多的bugs，并总结出了在应用文献鸟时避免错误、提升分析质量的方法。

我们也同样期待，已经落地的“病理图像文本对应”的自然语言-图像预训练，也快速成长到稳定且高效的辅助诊断系统，早日去掉beta标识。

试用网址在此：

https://tinyurl.com/webplip

参考资料来源：

【1】 Huang Z, Bianchi F, Yuksekgonul M, Montine TJ, Zou J. A visual-language foundation model for pathology image analysis using medical Twitter. Nat Med. 2023 Aug 17. doi: 10.1038/s41591-023-02504-3. Epub ahead of print. PMID: 37592105.

致敬本研究的团队：