Nature:人工智能挑战超声医生,心功能评估谁做得更好?
在一项盲法随机研究中,对于接受超声心动图评估左心室射血分数(LVEF)的患者,人工智能(AI)的初步评估不劣于甚至优于超声医生的评估。研究者筛选了3495份超声心动图检查,人工智能组和超声医生组在心脏病专家审查后修改结果的比例分别为16.8%和27.2%,表明人工智能具有优越性。人工智能组初始和最终LVEF评估之间的平均绝对差异为2.79%,而超声医生组为3.77%,再次显示了人工智能的优越性。该研究结果发表于Nature。
Cedars-Sinai Smitt心脏研究所的David Ouyang博士表示,我们最初只希望证明人工智能和超声医生准确率差不多,而结果令人惊喜。在某些方面,人工智能表现得更优秀,医生仍然要审查和确认检查结果,但人工智能可以使其更快、更精确。
研究纳入了2019年的3495份经胸超声心动图,分别由人工智能和超声医生进行初步解读。其中,人工智能组1740份,超声医生组1755份,患者平均年龄66岁,女性占57%。超声医生共25名,平均具有14年工作经验。初步评估后发送给10名心脏病专家进行审查。主要终点是人工智能或超声医生初始评估和心脏病专家最终评估之间的LVEF变化。
总的来说,心脏病专家无法分辨哪些诊断来自人工智能,哪些来自超声医生。人工智能组16.8%的检查结果在初始和最终评估之间发生了实质性变化,而超声医生组为27.2%(差值-10.4%;95%CI,-13.2%至-7.7%;非劣效性P<0.001,优效性P<0.001)。也就是说,人工智能组的初步评估结果更多地被心脏病专家认可。
人工智能组初始和最终LVEF评估之间的平均绝对差异为2.79%,而超声医生组为3.77%(差值-0.97%;95 %CI,-1.33%至-0.54%;P<0.001)。人工智能组初始评估和心脏病专家最终评估之间的平均绝对差异为6.29%,超声医生组为7.23%。此外,研究还发现人工智能可以更精确地指导重大临床决策。
研究者指出,人工智能为超声医生和心脏病专家节省了时间,可减少较为繁琐的工作。人工智能的诊断结果是否能够采纳,最终仍然取决于临床医生。
该研究的局限性包括单中心试验,缺乏基于LVEF评估差异来评估长期结果的能力,以及AI模型需要更多训练样本。专家表示,这类人工智能一旦在超过10万个超声视频上进行训练,获得足够的数据,就可以推广到大多数机构。
资料索引:
1. He, B., Kwan, A. C., Cho, J. H., et al. Blinded, randomized trial of sonographer versus AI cardiac function assessment. Nature. Published online April 5, 2023.
2. AI Challenges Sonographers in Heart Function Assessment. Medscape. April 06, 2023.
微信扫码关注该文公众号作者