给你的单细胞数据分几个亚群？看这篇就够了！

2023-02-17 07:02

Hi，大家好，我是晨曦

今天我们这期推文主要是来探讨一个问题：单细胞究竟分为多少个亚群比较合适？

因为最近笔者也是处理了很多单细胞的数据，加上很多小伙伴也会来问相关的问题，所以也是专门的去学习了一下，并且写了一份自己的笔记

那么，我们开始吧

一、如何调节亚群的数量？

我们都知道在进行单细胞分析的时候最终会获得细胞亚群，同时我们通过调节resolution参数可以调节生成亚群的多少，一般来说，resolution参数越大，我们会获得更多的细胞亚群，但是我们究竟应该如何确定一个比较合适的亚群数量呢？

先说结论：目前来看，并没有一个统一的规定单细胞亚群最好应该在什么区间内，但是我们可以通过一些方法或者说是手段来选择一个比较适合我们数据的，下面也将逐一进行介绍)

接下来使用的数据是晨曦个人分析的数据，各位小伙伴在练习的时候，可以直接使用Seurat官方的PBMC示例数据即可

我们可以通过借助clustree包生成亚群的树形结构来评估resolution参数的取值

#我们在使用clustree包生成不同resolution参数对应亚群情况的时候#应该在FindClusters函数时就设置我们想要的resolution参数范围，示例代码如下：#MI.integrated <- FindClusters(object = MI.integrated, resolution = seq(0.1,1,0.1))clus.tree.out <- clustree(MI.integrated) +  theme(legend.position = "bottom") +   scale_color_brewer(palette = "Set3")+  coord_flip()clus.tree.out#通过结果，笔者可能会选择0.3或者0.8

二、怎样选择参数？

然后我们可以看到，每一列代表着不同的resolution参数，那么这个时候问题来了，我们应该如何选择？

这里笔者的理解是，我们单细胞分析划分亚群的目的本身就是想让每一个亚群尽可能的纯粹，那么如果每一个细胞都是一个亚群那么很显然是最纯粹的情况，但是这样做我们的分析也将变得很困难，所以说我们尽可能通过表达谱来聚类，好让相似表达的细胞聚成一类，我们可以看到随着resolution参数的变大，亚群数目是不断增多的，我们期望看到的是，亚群不断的细分，但是并不会跨细胞亚群进行划分，因为如果产生跨细胞亚群，那么有可能是因为以下几种情况：

1.无中生有，本身这个亚群中的细胞彼此存在异质性，但是我们知道，细胞亚群内的异质性是要小于细胞亚群之间的异质性，所以这个时候如果我们的算法识别了细胞亚群内的异质性并把其划分出来其实是不恰当的

2.本身根据生物学功能应该这样划分是没有错误的

那么其实总结一下就是：要么就是不应该这样划分，要么就是应该这样划分，但是我们究竟应该如何识别呢？

三、分错了？还是新发现？

其实这里就是很多教程都会说到的，我们要结合生物学功能，假设我们划分的亚群中有本身就存在异质性的细胞亚群，那么盲目划分显然就不是很恰当，但是如果这种异质性正好可以允许我们单独划分为一群，那么我们也需要划分，其实就是根据生物学功能来查看划分的亚群是否恰当

那么这里说一个比较方便的做法：如果细胞亚群存在交叉，可能就是过度细分了，那么就选择当前节点内的resolution参数

最规范的做法自然是来回看生物学功能，然后调节参数大小，但是如果不想费工夫，这种比较粗糙的方法也是很多文献中都在使用的，因为很多文献都是直接写了一个resolution参数，甚至并没有这一步骤

但是这里笔者又产生了一个问题：那就是我即使知道了如何划分亚群，这样的做法究竟是否存在意义，或者究竟是否是必须的做法？

这里说一下笔者个人的理解：我们在调节resolution参数，其实控制的就是生成细胞亚群聚类图时候的亚群数量，但是笔者看了几篇单细胞高分文章其实并没有在这里多下功夫，其中Single-cell transcriptomics unveils the spatiotemporal dynamics of macrophage heterogeneity and a potential role of Trem2hi macrophages in infarcted hearts这篇文章的作者在上传的参考代码中使用了下面的方式来获得最佳的resolution参数

MI.integrated <- RunUMAP(MI.integrated, reduction = "pca", dims = use.pcs)MI.integrated <- FindNeighbors(object = MI.integrated, reduction = "pca", dims = use.pcs)MI.integrated <- FindClusters(object = MI.integrated, resolution = seq(0.5,2,0.1))sapply(grep("^integrated_snn_res",colnames([email protected]),value = TRUE), function(x) length(unique([email protected][,x])))

但是说实话，笔者也是对这篇文献的代码进行了研究，发现这里的操作其实并没有详细的解释为什么选择这个设定某个resolution参数，再结合了后来作者针对某一个特定细胞亚群进行亚群细分后等相关操作，笔者觉得，我们关注resolution参数是合理且又必要的，但是又不是必须要彻底钻研透彻，因为往往我们感兴趣的只是某个细胞亚群，或者某一个marker所在的几个亚群，或者是某些亚群之间的关系，这个时候往往还会涉及到亚群细分等其它分析操作，所以笔者针对上述的理解其实就是四个字：点到为止~

啰啰嗦嗦又是说了很多，上述的观点都是笔者针对细胞亚群分群的个人理解，如果各位小伙伴对笔者的理解有不同的看法或者有自己的理解，也欢迎各位小伙伴在评论区进行相关的讨论，互相学习，共同进步QAQ

我是晨曦，我们下期再见~

参考教程：

1.不知道你的单细胞分多少群合适，clustree帮助你 - 腾讯云开发者社区-腾讯云 (tencent.com)

2.单细胞转录组亚群分析 - 简书 (jianshu.com)

—END—

撰文丨晨曦

排版丨三叶虫

编辑丨三叶虫

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章