一文回顾 AI4Science 进展
专题解读
事件:牛津、EPFL 等团队近期发布论文,提出了基于深度学习的 WES 数据体细胞和种系 CNV 调用程序「ECOLE」。基于 Transformer 架构的变体,该模型通过对匹配的 WGS 样本进行高置信度调用,学习调用每个外显子的 CNV。ECOLE 首次在人类专家标记数据上实现了高性能,准确率达到 68.7%,召回率达到 49.6%。
随着人工智能(AI)技术的兴起,AI 开始通过提高、加速和促进我们对各种空间和时间尺度下自然现象的理解,推动自然科学的发展,催生出了科学人工智能 AI4Science 的新研究领域。
1、模型驱动:在传统的科学研究中,模型驱动的方法强调从基本原理出发,通过建立和求解数学模型来理解和预测现象。AI 技术提高了计算效率,帮助科学家更快速、准确地求解复杂的科学问题。
2、数据驱动:数据驱动的研究方法侧重于从大量数据中提取模式和洞见,通常不依赖于预先定义的模型或假设。AI 技术,尤其是机器学习和深度学习,能够有效地处理和分析庞大的数据集,从而揭示新的科学知识和规律。
AI 在科研各个领域中有哪些共性的应用?
科学实验产生的数据规模巨大,需要实时处理和高性能计算,以筛选和分析关键数据。通过深度学习方法,可以实时检测和丢弃背景事件,以控制数据传输速率,同时识别罕见事件,为未来研究提供有用信息。这种无监督异常检测方法已在多个领域广泛应用。
有监督模型需要标记数据进行训练,但标注数据集费时费力。伪标注和标签传播等方法可以自动标记无标注数据,尤其在生物学领域中,这对于监督模型的训练至关重要。还可以利用代理模型或领域知识制定标注规则,减少专家标注的需求。
深度学习性能提高的有效方式之一是生成额外的合成数据点,以增强训练数据集。深度生成模型如生成对抗网络等能够合成逼真图像,广泛用于多个领域的数据生成。概率编程是一种新兴技术,将数据生成模型表示为计算机程序。
人工智能技术提高了测量精度,去噪是一项重要任务。深度卷积方法可以将精度较差的测量结果转化为高质量图像。去噪自动编码器可以有效区分信号和噪声,并学习去除噪声。这些方法在不同科学领域中应用广泛,如可视化时空区域、粒子碰撞、生物图像分析等。
① 可验证的假设是科学发现的关键。这些假设有多种形式,从数学的符号表达式,到化学的分子,再到生物学的基因变异。构建有意义的假设通常是一项耗时费力的过程......
① 通过实验评估科学假设是科学发现的关键环节。然而,实验室实验可能成本高昂,操作复杂。计算机模拟已经成为一种具有前景的替代方案,为我们提供了更为有效和灵活的实验手段。
「机器之心PRO」业内通讯 · 2024年度#Week 01
↓↓↓ 关注「机器之心 PRO 会员」服务号,点击菜单栏「收件箱」查看往期通讯。
微信扫码关注该文公众号作者