Redian新闻
>
PCA explained variance 太低怎么办?
avatar
PCA explained variance 太低怎么办?# Biology - 生物学
c*y
1
270个样本(6 replicates X 5 treatments X 9 time points), metagenomic data,
phylogeny features: 850
PCA 结果: PC1, ~12%; PC2, ~4%; PC3, ~1%
这种结果如何解释? 可信度如何?
谢谢了!!
avatar
k*2
2
12%感觉好低的样子。不过不知道你在predict什么,也许不错也说不定呢。
建议1. 你用random feature(比如shuffle现在的信息之后)看看你能够Predict多少
,如果你的结果显著好于random prediction,则说明结果还行。
建议2. 做PCA之前,用CV把一些没什么用的feature去掉,因为feature多,noise会比
较大。
建议3. 如果你是想做classification的话,可以考虑其他classification的方法,种
类繁多,适用于不同类型。
avatar
c*y
3
谢谢你的建议.
是想做classification, 比如说5个treatment之间, 或者不同的time point之间...
能详细解释下random feature吗?
多谢!!

【在 k*****2 的大作中提到】
: 12%感觉好低的样子。不过不知道你在predict什么,也许不错也说不定呢。
: 建议1. 你用random feature(比如shuffle现在的信息之后)看看你能够Predict多少
: ,如果你的结果显著好于random prediction,则说明结果还行。
: 建议2. 做PCA之前,用CV把一些没什么用的feature去掉,因为feature多,noise会比
: 较大。
: 建议3. 如果你是想做classification的话,可以考虑其他classification的方法,种
: 类繁多,适用于不同类型。

avatar
k*2
4
random feature是说如果你random shuffle你的treatment(没有给出任何信息),重
新做PCA,你的结果是否会显著变差。
除了PCA,你可以试试其他classification方法(比如SVM,RF),用cross validation
看看谁的cross validation error比较低就选谁。
我也只是上过相关课程、做过课程项目的水平,如果哪里讲的没道理,还请包涵啦~

【在 c***y 的大作中提到】
: 谢谢你的建议.
: 是想做classification, 比如说5个treatment之间, 或者不同的time point之间...
: 能详细解释下random feature吗?
: 多谢!!

avatar
k*2
5
如果你random shuffle treatment的数据得到pseudo dataset,用PCA还能够得到~12%
variance explained,就说明model挺糟糕(没有任何predictive power),如果只能
解释很小部分,你做1000次shuffle什么的,如果都远低于12%,则说明还OK。

validation

【在 k*****2 的大作中提到】
: random feature是说如果你random shuffle你的treatment(没有给出任何信息),重
: 新做PCA,你的结果是否会显著变差。
: 除了PCA,你可以试试其他classification方法(比如SVM,RF),用cross validation
: 看看谁的cross validation error比较低就选谁。
: 我也只是上过相关课程、做过课程项目的水平,如果哪里讲的没道理,还请包涵啦~

avatar
l*r
6
或许这就是即将获炸药奖的新发现

【在 c***y 的大作中提到】
: 270个样本(6 replicates X 5 treatments X 9 time points), metagenomic data,
: phylogeny features: 850
: PCA 结果: PC1, ~12%; PC2, ~4%; PC3, ~1%
: 这种结果如何解释? 可信度如何?
: 谢谢了!!

avatar
l*r
7
或许这就是即将获炸药奖的新发现

【在 c***y 的大作中提到】
: 270个样本(6 replicates X 5 treatments X 9 time points), metagenomic data,
: phylogeny features: 850
: PCA 结果: PC1, ~12%; PC2, ~4%; PC3, ~1%
: 这种结果如何解释? 可信度如何?
: 谢谢了!!

avatar
c*r
8
有没有batch effects/blocking等因素?
有的话除去之后会有改进,但是就你这个例子我不知道能有多少改进。
我的一点经验见图:

【在 c***y 的大作中提到】
: 270个样本(6 replicates X 5 treatments X 9 time points), metagenomic data,
: phylogeny features: 850
: PCA 结果: PC1, ~12%; PC2, ~4%; PC3, ~1%
: 这种结果如何解释? 可信度如何?
: 谢谢了!!

avatar
c*r
9
当然我这个batch effects比较大,应该再上个这张图,就容易看明白的了。
你的前边几个PC都可能和什么因素相关?

【在 c*********r 的大作中提到】
: 有没有batch effects/blocking等因素?
: 有的话除去之后会有改进,但是就你这个例子我不知道能有多少改进。
: 我的一点经验见图:

avatar
s*s
10
你PC1有12%,不知道你为啥认为低了,和啥比的?
你这个PC的variance explained降的很快,我不错metagenomics,不过从统计上讲,这
说明前两个PC很可靠啊。
你用PC做predication或者cluster,我知道很多人这样做,结果出来也好解释,纯生物
的喜欢,不过这玩意儿其实就是看看啊,真要做肯定直接放model啊。PCA这玩意儿,和
distance function关系太大,不一样的data transformation, 不一样的distance
measurement结果可能完全不同,也就一fast & dirty的方法,真不适合深究。

【在 c***y 的大作中提到】
: 270个样本(6 replicates X 5 treatments X 9 time points), metagenomic data,
: phylogeny features: 850
: PCA 结果: PC1, ~12%; PC2, ~4%; PC3, ~1%
: 这种结果如何解释? 可信度如何?
: 谢谢了!!

avatar
s*j
11
"不知道你为啥认为低了,和啥比的?"
问得好呀.

【在 s******s 的大作中提到】
: 你PC1有12%,不知道你为啥认为低了,和啥比的?
: 你这个PC的variance explained降的很快,我不错metagenomics,不过从统计上讲,这
: 说明前两个PC很可靠啊。
: 你用PC做predication或者cluster,我知道很多人这样做,结果出来也好解释,纯生物
: 的喜欢,不过这玩意儿其实就是看看啊,真要做肯定直接放model啊。PCA这玩意儿,和
: distance function关系太大,不一样的data transformation, 不一样的distance
: measurement结果可能完全不同,也就一fast & dirty的方法,真不适合深究。

avatar
s*j
12
"不知道你为啥认为低了,和啥比的?"
问得好呀.

【在 s******s 的大作中提到】
: 你PC1有12%,不知道你为啥认为低了,和啥比的?
: 你这个PC的variance explained降的很快,我不错metagenomics,不过从统计上讲,这
: 说明前两个PC很可靠啊。
: 你用PC做predication或者cluster,我知道很多人这样做,结果出来也好解释,纯生物
: 的喜欢,不过这玩意儿其实就是看看啊,真要做肯定直接放model啊。PCA这玩意儿,和
: distance function关系太大,不一样的data transformation, 不一样的distance
: measurement结果可能完全不同,也就一fast & dirty的方法,真不适合深究。

avatar
c*y
13
说低是和其它我作过的数据,以及看过的一些资料相比
当然我看过的是非常有限的

【在 s******s 的大作中提到】
: 你PC1有12%,不知道你为啥认为低了,和啥比的?
: 你这个PC的variance explained降的很快,我不错metagenomics,不过从统计上讲,这
: 说明前两个PC很可靠啊。
: 你用PC做predication或者cluster,我知道很多人这样做,结果出来也好解释,纯生物
: 的喜欢,不过这玩意儿其实就是看看啊,真要做肯定直接放model啊。PCA这玩意儿,和
: distance function关系太大,不一样的data transformation, 不一样的distance
: measurement结果可能完全不同,也就一fast & dirty的方法,真不适合深究。

avatar
c*y
14
你的这些图我觉得好象before batch removal的cluster好像更好呢??

【在 c*********r 的大作中提到】
: 当然我这个batch effects比较大,应该再上个这张图,就容易看明白的了。
: 你的前边几个PC都可能和什么因素相关?

avatar
c*y
15
能推荐一些model analysis的方法吗?
我个人也觉得PCA很多时候不是很另人满意

【在 s******s 的大作中提到】
: 你PC1有12%,不知道你为啥认为低了,和啥比的?
: 你这个PC的variance explained降的很快,我不错metagenomics,不过从统计上讲,这
: 说明前两个PC很可靠啊。
: 你用PC做predication或者cluster,我知道很多人这样做,结果出来也好解释,纯生物
: 的喜欢,不过这玩意儿其实就是看看啊,真要做肯定直接放model啊。PCA这玩意儿,和
: distance function关系太大,不一样的data transformation, 不一样的distance
: measurement结果可能完全不同,也就一fast & dirty的方法,真不适合深究。

avatar
c*y
16
我的理解是PCA本身就是unsupervised的,已经random了...

%

【在 k*****2 的大作中提到】
: 如果你random shuffle treatment的数据得到pseudo dataset,用PCA还能够得到~12%
: variance explained,就说明model挺糟糕(没有任何predictive power),如果只能
: 解释很小部分,你做1000次shuffle什么的,如果都远低于12%,则说明还OK。
:
: validation

avatar
s*s
17
unsupervise和random一点关系也没有。
unsupervise是你cluster方法的问题;random是你数据质量的问题。
kagura2说的很好,random,还有减少feature
至于PC1是不是高,看permutation(也就是random)以后的emperical p-value
才行。PC1高到80%, 里面都是aritifacts, 还不如只有8%.

【在 c***y 的大作中提到】
: 我的理解是PCA本身就是unsupervised的,已经random了...
:
: %

avatar
c*y
18
非常谢谢你们的回复.
仔细看了下PCA permutation test的有关资料.我以前理解的确是错误的.我会去试试这
个test.

【在 s******s 的大作中提到】
: unsupervise和random一点关系也没有。
: unsupervise是你cluster方法的问题;random是你数据质量的问题。
: kagura2说的很好,random,还有减少feature
: 至于PC1是不是高,看permutation(也就是random)以后的emperical p-value
: 才行。PC1高到80%, 里面都是aritifacts, 还不如只有8%.

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。