Trends in Cancer | 浙江大学吴息凤团队发表健康医疗大数据在癌症研究中的应用
2023年11月15日,浙江大学公共卫生学院吴息凤院长团队在《Trends in Cancer》上发表题为“Big Data and Artificial Intelligence in Cancer Research”的综述。全面阐述了健康医疗大数据和人工智能技术在癌症研究中的应用并作出重要展望。
2020年全球新发癌症病例高达1929万例,对人类生命健康构成严重威胁。随着社会经济转型和居民生活方式的转变,全球恶性肿瘤发病率逐年攀升,疾病负担日益沉重,癌症防控刻不容缓。恶性肿瘤的有效预防以及早筛早诊早治是降低肿瘤负担的关键。然而,恶性肿瘤的异质性导致个体在环境暴露反应、易感性和临床结局等方面存在差异;大规模癌症筛查的假阳性率高;大量患者未得到准确有效诊治;缺乏高质量的临床大数据基础设施,制约了癌症发生发展和临床结局研究;现有的风险预测模型尚不足以满足临床应用,需要更精准的预测模型支持癌症防治工作。
在此背景下,精准健康致力于根据每个患者的疾病特征量体裁衣式地制定个性化预防和治疗方案,早筛早诊早治,最大限度地减少治疗副反应,提高患者生存率和整体生活质量。肿瘤危险因素发现、风险预测、诊断、治疗与预后监控都离不开对肿瘤大数据的收集、处理和分析。因此,高效收集和有效利用健康医疗大数据将是推动肿瘤精准防诊治的关键。
该综述全面概述了当前大数据计算分析的最新技术,重点介绍了健康医疗大数据和人工智能技术在癌症研究中的应用及进展,探讨了癌症研究中大数据管理、分析和利用面临的关键挑战,并提出要建设人工智能驱动的综合在线服务平台,整合健康医疗大数据,支持个性化健康管理和居民健康水平提升,助力健康中国建设。
健康医疗大数据的收集和管理共享
健康医疗大数据通常来源于流行病学调查问卷、电子病历和随访信息、影像数据、分子生物学检测产生的组学信息、移动医疗设备数据、医保数据及公共健康监测等。这些数据体量非常庞大,通常存在数据分散、异质性高、数据缺失、准确性有待验证等问题,此外,数据存储和安全隐私等方面仍有待完善。针对上述挑战,吴息凤教授指出,我们可以利用云计算、分布式架构、标准化处理等方式管理不同来源的原始数据;对于缺失数据,在能够溯源的情况下,尽可能通过数据补充采集来完善数据;对于无法溯源的情况使用人工智能算法处理缺失值;此外,还可应用泛化技术、隐私计算和联邦学习等分布式计算存储、脱敏技术,以实现安全合规的数据共享,使数据可用不可见,保护个人数据安全与患者隐私。
健康医疗大数据融合分析
近年来,生命组学(基因组学、转录组学、蛋白组学、代谢组学)、影像组学和临床表型组学等多组学的不断发展,为肿瘤患者的精准医疗提供了大数据支撑,但海量的多源异构大数据也带来了分析上的巨大挑战。随着人工智能的快速发展,尤其是深度学习技术的不断成熟,跨尺度、高维度、多模态生物医疗大数据的融合分析及临床应用成为可能。在文中,吴息凤教授深入描述了如何通过生物技术与信息技术跨界融合来深度挖掘和利用海量健康医疗大数据,包括医疗影像、组织病理、跨尺度多模态数据融合计算、知识图谱构建、多组学联合分析、电子病历分析等进行了详细阐述。
健康医疗大数据在肿瘤疾病全过程中的实际应用
肿瘤发生受遗传与环境因素的共同作用,传统的肿瘤全过程风险评估准确率不高且缺乏个体特异性。面向肿瘤风险预测、诊断、治疗、预后监控等临床全过程,吴息凤教授对人工智能技术如何应用于该场景进行了归纳和总结。包括环境、饮食、生活方式等癌症相关的可改变风险因素的辨析,肿瘤易感性、诊断和预后、治疗反应和不良事件的生物标志物识别,药物发现和再利用,药物剂量调整,影像识别,以及精准构建风险分层、治疗反应、疾病复发和生存预测等模型。
展望:肿瘤防诊治综合在线服务平台搭建
当前大多数平台的建设仅基于问卷或常规生化检测来评估癌症风险,缺乏对新型肿瘤生物标志物的整合,且功能单一,缺乏系统性、综合性、智能性及可持续性。因此,面对来自不同的癌症系统和数据平台的肿瘤数据,吴息凤教授提出打造一个具备数据采集、AI健康助手、风险评估、健康画像、筛查方案推荐、物联网设备接入等主要模块的综合在线服务平台。该平台可通过移动设备和便携式数据采集设备,全天候收集人群的一般流行病学信息、体征信息、自我健康检查与症状反馈和其他新型暴露数据。通过在线云计算平台实时计算,包括对各类数据的融合分析、影像自动切割与辅助诊断、在线实时预测建模、肿瘤风险评估等,生成个人个性化健康管理方案。对异常指征主动提醒和预警并协助预约体检筛查。
依托大型人群队列、大数据库和大样本库,深度融合生物技术与信息技术,突破跨尺度、多模态健康医疗大数据融合辨析瓶颈,为癌症肿瘤筛查、诊断、治疗甚至药物研发提供了前所未有的机遇,但也伴随着一些挑战,包括数据安全、算法的可解释性、数据质量控制和隐私保护等问题。攻克这些挑战需要流行病学家、临床医生、数据科学家和政策制定者间的跨学科合作。尽管如此,将大数据和人工智能整合到肿瘤研究中具有巨大的变革潜力。通过不断聚焦创新,我们有望实现更精确、有效和个性化的癌症发现、诊断和治疗策略,最终改善患者的预后,降低疾病负担。
浙江大学公共卫生学院李文渊研究员及涂华康教授为共同作者。李文渊研究员,博士毕业于美国哈佛大学,从事人工智能驱动的环境健康及医学影像研究。涂华康教授,博士毕业于美国埃默里大学,从事基于电子病历的肿瘤真实世界大数据研究。
扫码阅读全文
Wu X#, Li W, Tu H. Big data and artificial intelligence in cancer research. Trends Cancer. 2023 Nov 15:S2405-8033(23)00217-0. doi: 10.1016/j.trecan.2023.10.006. Epub ahead of print. PMID: 37977902.
通讯作者简介
吴息凤
国家级特聘专家、长江学者讲席教授,浙江省“鲲鹏计划”顶尖人才。浙江大学公共卫生学院院长、浙江大学医学院附属第二医院副院长、浙江大学陈廷骅大健康学院执行院长、浙江大学健康医疗大数据国家研究院院长、浙江大学医疗保障大数据和政策研究中心主任。研究横跨遗传学、健康医疗大数据、流行病学、精准医学等领域,包括基于大型人群队列的健康医疗大数据和生物样本库构建、可改变风险因素辨析、新型生物标志物挖掘、精准风险预测与医学人工智能应用等。发表论著920余篇,包括柳叶刀、新英格兰医学杂志、美国医学学会杂志、自然、英国医学杂志等顶级期刊,H指数108,累计被引47106次,单篇最高引用2387次(Lancet,2011)。曾获MD安德森癌症中心从教学到科研到预防的最高奖,以及“休斯顿市50位最具影响力女性奖”等荣誉,担任十多个国家/国际的评审委员会委员及顾问。
微信扫码关注该文公众号作者