Redian新闻
>
​将专家知识与深度学习结合,清华团队开发DeepSEED进行高效启动子设计

​将专家知识与深度学习结合,清华团队开发DeepSEED进行高效启动子设计

公众号新闻

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯


编辑 | 萝卜皮

设计具有所需特性的启动子在合成生物学中至关重要。人类专家擅长识别小样本中的强显式模式,而深度学习模型擅长检测大数据集中隐式的弱模式。生物学家通过转录因子结合位点(TFBS)描述了启动子的序列模式。然而,顺式调控元件的侧翼序列长期以来一直被忽视,并且经常在启动子设计中任意决定。

为了解决这一限制,清华大学的研究团队引入了 DeepSEED,这是一种人工智能辅助框架,可通过将专家知识与深度学习技术相结合来有效地设计合成启动子。

该研究以「Deep flanking sequence engineering for efficient promoter design using DeepSEED」为题,于 2023 年 10 月 9 日发布在《Nature Communications》。

启动子是调节基因表达的核心遗传元件。设计具有所需特性的合成启动子以精确控制基因表达是生物合成工程和基因治疗的必要条件。强或诱导型启动子对于实现高转基因表达和最大化治疗效果是必不可少的。人们认为启动子的特性主要由顺式调控元件决定,即转录因子结合位点(TFBS),例如原核生物中的–10/–35元件和真核生物中的TATA-box。

TFBS 的序列偏好通常概括为基序并由位置权重矩阵 (PWM) 表示。由于 TFBS 的序列和功能通常是众所周知的,因此大多数研究人员通过操纵 TFBS 基序的组合和排列来设计新的启动子。然而,最近的证据强调 TFBS 侧翼序列也显著影响启动子特性。

TFBS 周围的侧翼序列的作用涵盖各个方面,包括物理化学特性(例如 DNA 形状)的影响、某些 TFBS 的特定侧翼序列偏好以及侧翼区域中存在增强 TF 结合的潜在低亲和力结合位点。很难将这些特征概括为明确的启动子设计规则;因此,在当前的启动子设计方法中很大程度上尚未探索侧翼序列的优化。

深度学习模型在真核和原核启动子工程中都显示出巨大的潜力。在这里,清华大学的研究团队提出了 DeepSEED(基于深度学习的侧翼序列工程,用于高效启动子设计),这是一种用于合成启动子设计的人工智能辅助侧翼序列优化方法。

图示:DeepSEED 方法概述。(来源:论文)

DeepSEED 旨在将专业知识与数据驱动模型的力量相结合,以促进高效的启动子设计。DeepSEED 由两个深度学习模型组成:一个是基于预设序列元素生成侧翼序列的条件生成对抗网络 (cGAN),另一个是基于 DenseNet-LSTM 的模型(其中 LSTM 表示「long short-term memory」),用于预测启动子属性。

为了设计具有所需特性的合成启动子,用户可以根据他们的先验知识,首先在任何位置输入任意数量的感兴趣的序列元件(例如 TFBS)作为「seed」,然后 DeepSEED 将根据「种子」生成侧翼序列,以适应启动子的隐式模式。随后,为了评估侧翼序列的重要性,研究人员使用预测模型和显著性图研究了功能性大肠杆菌启动子中侧翼区域的不同影响模式。此外,研究人员采用 t 分布随机邻域嵌入(t-SNE)来进一步分析和确认启动子活性与侧翼序列中 DNA 形状特征之间的关系。

图示:DeepSEED 捕获侧翼序列中的隐含模式。(来源:论文)

接下来,该团队将 DeepSEED 应用于三种不同的启动子设计任务:原核组成型启动子、原核 IPTG 诱导型启动子和真核强力霉素诱导型启动子。在所有这三种情况下,DeepSEED 通过优化侧翼序列,在实现所需的启动子特性方面表现出显著的改进,并且成功率很高。DeepSEED 生成的合成启动子表现出高度的序列多样性,同时保留了关键特征,例如 k 聚体频率和 DNA 形状特征。这些合成启动子表现出与天然基因组的低序列相似性,以及与随机侧翼序列相当的编辑距离。

这项研究强调了侧翼序列在确定启动子特性中的重要性。该团队强调在启动子设计中考虑更广泛的侧翼序列的重要性,而不是仅仅关注相邻的基序。DeepSEED 成功学习了侧翼序列的隐式模式,显著图和嵌入空间探索的结果表明 DeepSEED 提取的特征与启动子活性相关。可解释性分析对于理解基因表达调控至关重要。

这里重点关注了模型学到的 k 聚体频率和 DNA 形状特征来提供部分解释,但侧翼序列调节背后的生物学机制仍不清楚。深度学习模型的可解释性仍然是一个挑战。随着深度学习模型解释方法的快速发展,将深度学习和生物实验结合起来,以明确的方式揭示侧翼序列的特征如何影响启动子特性是可能的。

图示:大肠杆菌中 IPTG 诱导型启动子的设计。(来源:论文)

该团队在质粒系统中通过实验验证了 DeepSEED 设计的启动子,并证明了它们在不同细胞类型中的功能和有效性。然而,在将合成基因表达盒整合到基因组中的情况下,例如在 CAR-T 细胞疗法中,调控元件的行为可能会受到其基因组背景的影响,包括染色质可及性、核小体排列、表观遗传修饰等。因此,需要进一步的研究和验证来评估这些人工智能设计的启动子在基因组环境中的性能。

当前版本的 DeepSEED 专门用于优化启动子的表达水平,因为缺乏足够的大数据训练集来实现其他功能特性。虽然许多 DeepSEED 设计的诱导型启动子通过提高最大诱导表达水平成功实现了高诱导率,但值得注意的是,其中一些启动子还表现出基础表达水平升高,导致诱导率受损。

为了克服这些限制,未来需要开展工作,利用高通量技术生成足够的特定任务实验数据,例如大规模并行报告基因检测,DeepSEED 可以在这些数据集上进行进一步训练,以解决和优化启动子工程的其他关键方面,包括渗漏表达、序列稳定性、细胞类型特异性等。使用这样的策略,还可以进一步应用 DeepSEED 框架来设计各种生物体中其他类型的合成遗传元件。

论文链接:https://www.nature.com/articles/s41467-023-41899-y

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
浙大团队用深度学习方法进行高效、准确的大型文库配体对接,助力药物开发Cell Research|西湖大学高晓飞团队开发红细胞载药平台用于治疗血栓性疾病科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)迅速登顶 HackerNews!这款深圳团队开发的编程语言月兔(Moonbit)将重塑 WebAssembly 的未来生态?魯秋警官的故事2STTT | 同济大学房健民等团队开发新的方法,实现新抗原设计南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架杭州/北京内推 | 阿里云人工智能平台深度学习团队招聘算法研究实习生今日Science: 清华团队在忆阻器边缘学习取得重要突破费城马拉松封路/SEPTA通行指南; 76人开发商举行首次面对面社区会议; SEPTA交通警察也计划罢工LLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量全球首颗忆阻器芯片,清华团队突破了什么? | 陈经谁统治下次大战的天空谁是真正的不完美受害人?清华、微软等淘汰提示工程师?LLM与进化算法结合,创造超强提示优化器星雲與李玟:學會放下不容易DeepGrade模型:深度学习的新型方法改进乳腺癌组织学分级托特:北大系深度学习科班团队进军量化(公司篇)Science子刊:腾讯AI团队开发DeepAIR,准确预测受体和-抗原结合成功预测90%错义突变,DeepMind团队开发新AI模型AlphaMissense,有望解决人类遗传疾病的最大挑战部分旧版Chase Freedom用户被强制“暖心升级”成Chase Freedom Unlimited顶尖科学家如何玩转AI?DeepSpeed4Science:利用先进的AI系统优化技术实现科学发现NeurIPS 2023 Spotlight | 半监督与扩散模型结合,实现少标签下可控生成北大硕士RLHF实践,基于DeepSpeed-Chat成功训练上自己的模型MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质女人的八字百纳米完胜7纳米?清华团队在该芯片领域实现新突破,芯片性能提升万倍关于运动与时尚的结合,这两位设计师有话说Knowledge-Based Systems 2023:基于注意力机制的图相似度学习探索清华智能产业研究院周浩:开发「少样本依赖分子生成模型」以实现鲁棒精准的分子设计北京内推 | AMD北京算法团队招聘深度学习算法实习生(可远程)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。