Redian新闻
>
CellAgent:LLM Agent 助力单细胞测序数据分析的重要突破丨AI 4 Science

CellAgent:LLM Agent 助力单细胞测序数据分析的重要突破丨AI 4 Science

公众号新闻

单细胞转录组测序技术自2013年被《Nature Methods》杂志评为年度技术以来,已快速发展十余年。

随着技术成本降低和研究推进,该技术在临床和生物学研究中的应用变得更加广泛,涵盖疾病监测、新药靶点开发、辅助生殖与产前诊断、基因调控和细胞通讯等领域。单细胞转录组测序数据分析已成为这些领域的必要步骤。

然而,目前的单细胞数据分析存在门槛较高、难度大等问题,它要求研究人员同时具备相应的生物医学知识背景和较高的编程能力、数据分析能力。整个分析流程涉及专业知识指导下的复杂工具选择和参数调节,过程繁琐且耗时,对广大研究者们形成了巨大挑战。

为了解决这一难题、打破专业壁垒,来自西北工业大学和天津大学的研究者近期共同提出一个专为单细胞数据分析任务设计的自动化LLM Agent——CellAgent。用户只需输入数据及分析需求,无需编程或单细胞数据分析基础,CellAgent即可通过多个专家级大语言模型的有效协作,实现高质量、自动化的单细胞数据分析

CellAgent显著降低了单细胞数据分析的门槛和工作量,标志着大语言模型驱动的AI智能体在科学领域应用的又一重要突破,推动了“Agent for Science”新时代的快速发展。



1

背景

单细胞RNA测序(scRNA-seq)技术允许以前所未有的规模和精度分析转录组数据,彻底改变了分子生物学。这一进步推动了计算方法的大规模创新,目前已有超过1400种工具可用于从各种角度分析scRNA-seq数据。

然而,scRNA-seq数据分析涉及相当的复杂性,需要专业的知识和技能。分析步骤包括预处理、批次校正、聚类、寻找标记基因、细胞类型注释、轨迹推断等。研究人员必须执行相应的代码或工具,并配置适合生物数据特定特征的参数和模型,这不仅需要高级编程技能,还需要坚实的生物医学背景。因此,迫切需要一种智能Agent,能够理解用户意图,自动化执行scRNA-seq数据分析任务并生成结果。



2

CellAgent多智能体

协作框架设计

scRNA-seq数据分析的复杂性和多样性需要手动选择工具和优化参数。CellAgent利用大型语言模型(LLM)来自动化整个分析流程。它通过三种LLM驱动的生物专家角色——Planner(规划者)、Executor(执行者)和Evaluator(评估者),实现高效协作。Planner负责高层次规划和任务分解,Executor执行具体任务,而Evaluator评估执行结果并促进自我优化。通过这种分层决策和自迭代优化的协作机制,CellAgent能够有效处理scRNA-seq数据分析任务,并在大多数情况下超过其他现有工具的表现。

CellAgent在50多个单细胞数据集上进行了测试,涵盖数十种组织和数百种不同的细胞类型,包括正常和疾病样本。在20多个具有专家注释标签的数据集上的实验结果表明,CellAgent表现稳健,任务完成率和分析质量均为优秀。



3

CellAgent实现了

高效去批次效应

研究评估了CellAgent在批次校正方面的性能,使用了九个涵盖人体主要组织或器官的数据集。CellAgent内部整合了多种优秀去批次算法,CellAgent根据数据集具体特性,选择合适的算法,通过内部迭代机制和Evaluator(基于GPT4v,可以有效提取图像信息)的评估结果,选择最优结果作为输出

与scVI、LIGER、Scanorama、Harmony、Combat等去批次算法相比CellAgent在批次校正和生物效应保留方面表现出色,并取得了最高的平均综合得分0.68。通过Heart数据集的UMAP图可以观察到,CellAgent成功去除了批次效应,同时保留了真实的细胞类型。



4

CellAgent提高了

细胞类型注释的准确率

细胞类型注释是单细胞数据分析中的重要一环。针对细胞类型注释任务,传统的单一工具注释结果通常具有一定的局限性,无法很好地泛化到不同的数据集中。人工手动注释同时要求研究人员有专业的知识、通常需要大量时间。

CellAgent能自动寻找细胞各个簇的差异表达基因,以及调用不同细胞类型注释工具获得答案,并综合这些不同信息完成细胞类型注释。对比七种不同方法在多个数据集上进行了性能基准测试,结果显示CellAgent在平均准确率上表现优异,并且在一些数据集(如人类外周血单个核细胞)上的注释结果与专家标注高度一致。



5

CellAgent实现了

高效轨迹推断

细胞轨迹推断在解码细胞发育和分化方面发挥着关键作用。CellAgent集成了Dyno(一个专门适用于单细胞轨迹推断的R包),CellAgent可以数据集大小、用户指定算法运行时间等信息选出潜在的不同轨迹推断算法作为备选,通过迭代机制,选出其中Top n个算法执行,然后利用Evaluator的多模态能力和专家知识,针对推测轨迹的图像进行打分,选出最优结果

在造血干细胞、人类胚胎细胞等9个数据集上,与Slingshot、Paga等五种方法进行了比较。结果显示,CellAgent在多个指标上表现出色,并在上取得了最高的平均整体得分。CellAgent在造血干细胞数据集上成功揭示了细胞的发育轨迹,并展示了其基因表达模式的变化。这表明CellAgent能够帮助科学家理解决定细胞命运和相关生物过程的机制。



6

总结

CellAgent是一种通用、可扩展、自动化的scRNA-seq数据分析工具。它采用了分层决策和自我迭代优化机制,有效保证了数据分析的质量。CellAgent不依赖于人工干预,大大降低了数据分析的难度和成本。

此外,其开放式架构使用户能够提供特定的新知识和工具,使CellAgent能够更好地符合用户的期望,成为研究人员的理想助手。CellAgent的出现不仅为生物信息学开辟了新的研究方向,而且扩展了生成式人工智能在科学中的应用,助力新发现和更深入的生物系统理解。

文章链接:https://www.biorxiv.org/content/10.1101/2024.05.13.593861

作者团队:

西北工业大学彭佳杰团队:团队致力于研究面向生物医学数据分析的人工智能方法,开发生物信息算法、发现重要生物学机制、助力疾病早筛与智能化药物设计,主要研究方向为单细胞测序数据分析、脑疾病早筛与风险评估、智能药物设计等,在生物医学、生物信息学、人工智能等多领域期刊与会议发表论文80余篇。成员包括肖弋杭(硕士生)、谢晓涵(硕士生)等。

天津大学郝建业团队:团队主要研究方向为具身智能、LLM Agent、强化学习与多智能体系统等,发表人工智能领域国际会议和期刊论文100余篇,专著2部。研究成果荣获国际会议最佳论文奖3次,NeurIPS20-22大会竞赛冠军4次。相关成果在工业基础软件智能化、自动驾驶、游戏AI、广告及推荐、5G优化、物流调度等领域落地应用。成员包括刘金毅(博士生)、郑岩(副教授)等。

更多内容,点击下方关注:

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
快、准、稳!NextSeq 1000/2000外显子组测序解决方案,开启下一个测序革新!IF12.3=蛋白质组+单细胞RNA测序+孟德尔随机化!千万别再说MR过时了!(送干货)37、长篇家庭伦理小说《嫁接 下》第十三章 问题男生(1)也求本科选校建议:UC Berkeley Data Science vs. Wellesley520直播 - 这样做,能展示文献计量分析的创新(文献计量分析 在线第二讲)熵泱——第五十章OpenAI又整活:ChatGPT再扛起数据分析大旗,Excel、Word全部拿下卖房选3%的local agent, 还是1.5%的redfin agent?CENCERT:特斯拉、比亚迪等汽车数据处理4项安全要求检测情况的通报(第一批)怎样和listing agent 讨论价格?华为自用的时序数据库开源啦,来看看水平怎么样?改写细胞死亡法则?Science | 发现癌细胞死亡的新途径——SLafen1基因个人感慨之121 世道太黑暗重磅!一篇Science论文+一篇Cell论文首次在真核细胞中发现固氮细胞器重要突破!我国这项试验圆满成功高分辨单细胞多模态空间组学技术重要进展【数据分析师全职录取Offer】波士顿生物咨询公司Putnam数据分析师全职录用Offer!|求职战报传奇程序员Kent Beck:LLM如何放大程序员技能 | 极客时间Cell: T细胞是个“夜猫子”,昼伏夜出杀死癌细胞外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生专访普译生物黄亿华:从头研发具有自主知识产权的「第四代测序仪」,成立仅2年已推出首款中通量纳米孔测序系统求职干货|TikTok 2024 春招已开!海外求职:数据(数据分析、数据科学、工程)​Cancer Cell|新研究揭示胰腺癌细胞与巨噬细胞之间的交谈引发癌症恶病质产生离散化、对齐文本还是预训练,哪个才是 LLM 处理时序数据的关键?数据分析|一线数据科学家教研组用心研发,编程技巧+模型理解+实战项目,全方位提升数据分析综合能力!数据分析师噩梦?ChatGPT实时互动分析Excel数据,网友挖出背后新模型分析文献、就可以发SCI论文!今晚有Karner老师文献计量分析的免费讲座,机会难得!我国页岩气勘探取得重要突破!此心安处是吾乡《来到遥远的地方》&《三春序》给你个不坚持的理由!Science Advances最新研究: 长期生酮饮食会诱导细胞衰老,而间歇性生酮饮食能阻止细胞老化积累为什么open house 一夜之间都没了?是因为今天开始实施的取消buyer agent commission?这个环境下,如何体现数据分析的价值?分享卖房第一次用Redfin agentScience子刊 | 基于细胞核转移技术成功将皮肤细胞转化为能够产生可存活胚胎的卵子摘要征集|Cell Symposia: Hallmarks of cancer 11月广州会议聚焦前沿突破高通量、高灵活、一键式自动化,百奥益康发布CelCode®高通量单细胞测序系统求职干货 | 海归求职:数据(数据分析、数据科学、工程)我国成功发射试验二十三号卫星;退役动力电池规范循环利用伙伴计划正式启动;我国仿萤火虫通信无人机研究取得新突破丨智能制造日报数据分析必学!哈佛大学神课,留学生0门槛入门Data Science
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。