Redian新闻
>
t-SNE和PCA哪个好?为什么?
avatar
t-SNE和PCA哪个好?为什么?# Biology - 生物学
m*l
1
【 以下文字转载自 Movie 讨论区 】
发信人: Hetzer (乌衣蓝帽), 信区: Movie
标 题: 如果李仁港拍重庆谈判,会是这个样子(zz)
发信站: BBS 未名空间站 (Sat Dec 3 15:57:00 2011, 美东)
发信人: Hetzer (乌衣蓝帽), 信区: History
标 题: 如果李仁港拍重庆谈判,会是这个样子(zz)
发信站: BBS 未名空间站 (Sat Dec 3 15:56:55 2011, 美东)
http://movie.douban.com/review/5193907/
如果李仁港拍重庆谈判,会是这个样子
2011-12-01 12:29:03   来自: Bono (在别处)
鸿门宴的评论
毛年轻时没什么事,爱挎把枪在大街上溜达。人不好好走道,经常横着膀子晃就容
易出事,某天他就晃大了劲儿,膀子脱臼不说,还猛撞上一个姑娘。毛本来正想拔枪射
击,忽然发现姑娘长得很顺眼,就直勾勾盯着人家看,姑娘也不示弱,狠狠地反盯着毛
看,俩人就这样看对了眼,要不是旁边一位不识趣的大叔喊:“美龄,快走。”俩人恐
怕要这样对上眼一天也难说。
毛闲,兴起,就把这姑娘给尾行了,闹半天美龄是个卖唱的,专门为日本军官唱
英文曲子,什么《hero》之类的,日本人哪听得了这个,海豚音什么的,就火了,激头
白脸要打美龄。这时候楼上传来了更高亢的英文男声,器宇轩昂的蒋扯着金嗓子信步走
下,斗殴变成了赛歌会,这下见过世面的日本人也傻了眼。随着赛歌的气氛越来越热烈
,群众普遍HIGH了起来,日本人就提出玩打扑克脱衣服,美龄不亏是混娱乐圈的,知道
机会来了,马上摔牌认输,立刻就脱出一个虎虎生风。
蒋泡马子不像毛只用看的,直接伸手就要带美龄去楼上开房,日本人不干了,赛
歌会又变成了斗殴。毛看到场面被文艺青年控制,身为普通青年自觉已毫无出路,只能
铤而走险迈上二逼青年的不归路,拔枪就冲上去跟蒋摆成一个背靠背的造型,认了蒋作
大哥。蒋的义薄云天在这个时刻彰显无疑,只对毛说了一句话:“保护好你嫂子”,日
本人就全倒了。
时光荏苒,日本人对中国的占领已走到尽头,蒋毛作为抗战后最强的两大势力,
彼此约定,先接管东北者即为王。在争夺东北的最关键时刻,蒋作出了一个让毛退让的
决定,令毛护送美龄回江南。毛欢呼雀跃,逢人便说自己的机会来了,但在部下与毛充
分交流后,部下才了解毛所指的机会不是趁机绕道接管东北,而是接管嫂子。部下们闻
讯纷纷倒戈,指责毛二逼,彭大将军更明确指出“要东北,不要嫂子”,不然就要回家
种地。毛默宋泪,只好作出了绕道东北的决定,当他率众站在山海关前,面对东北一望
无际的广袤土地,毛才深深体会到自己的宿命不应该是偏安一隅的配角,而是上辈子折
了翼的天使。
蒋闻讯大怒,在山海关外陈兵百万,誓要一场恶战剿灭毛。毛将计就计,通告东
北人民蒋的目的是为灭绝东北,欲将战争的责任推于蒋一身。蒋何等聪明之人,当然不
肯就范,在二号人物李宗仁的建议下,邀毛到重庆进行和平谈判,目的在于刺杀毛于重
庆。在这千钧一发的存亡时刻,几位出身于行伍的能人志士纷纷现身,前仆后继鸡鸣狗
盗,拯救毛于重庆谈判的危难时刻。
林后来带领四野百万军队,打仗必胜,所攻必取,旁人都以为拜林所具有军事韬
略所赐,其实不然,真正的原因在于林是一位大侠,以一敌百,武功卓绝,一出场就连
克彭、贺两大元帅,拳拳到肉,脚脚穿心,绰号霍元甲。若飞运筹策帷帐之中,决胜于
千里之外,但他在被周发掘之时,正在与里弄里数十桌乡亲对搓麻将,一炮点十桌,技
惊四座。有了这样两位能人相助,毛如虎添翼,胸有成竹,留周在家主持工作,临行时
用很大的舌头说了句“违令者,斩”,美滋滋自觉已具备文艺青年的模样,就此踏上了
重庆谈判的飞机。
周发掘若飞的主要原因,不是看中了王的谋略,而是看中了王的麻将技艺,因为
蒋的头号智囊宗仁也是骨灰级麻将爱好者,每次听说有麻可搓必裤中淌水夜不能寐。重
庆谈判上没有谈判桌,没有文件和茶水,更没有唇枪舌剑杯弓蛇影,有的只是数十张巨
大的麻将桌,众人围坐一堂,欢声笑语,麻声阵阵,时而有人炸和,席间便爆出一阵“
干你娘”的叫喊声。宗仁技高一筹,频频点炮,一炮三响简直成了家常便饭,若飞苦苦
支撑,渐渐不支,就在千钧一发之刻,林彪翻滚腾挪着破门而入,带来了英美对毛的特
赦令。
这就是号称中国历史第一饭的重庆谈判。
其实我写这么多只是想说一句话,干你娘!重庆谈判你不敢这么拍,鸿门宴你就
敢这么变着法儿祸害了?
avatar
j*g
2
rt
avatar
a*9
3
过几百年,就可以这么拍了

【在 m**l 的大作中提到】
: 【 以下文字转载自 Movie 讨论区 】
: 发信人: Hetzer (乌衣蓝帽), 信区: Movie
: 标 题: 如果李仁港拍重庆谈判,会是这个样子(zz)
: 发信站: BBS 未名空间站 (Sat Dec 3 15:57:00 2011, 美东)
: 发信人: Hetzer (乌衣蓝帽), 信区: History
: 标 题: 如果李仁港拍重庆谈判,会是这个样子(zz)
: 发信站: BBS 未名空间站 (Sat Dec 3 15:56:55 2011, 美东)
: http://movie.douban.com/review/5193907/
: 如果李仁港拍重庆谈判,会是这个样子
: 2011-12-01 12:29:03   来自: Bono (在别处)

avatar
h*6
4
t-SNE is better for non-linear data set.
avatar
c*e
5

What types of bio data are non-linear?

【在 h********6 的大作中提到】
: t-SNE is better for non-linear data set.
avatar
s*s
6
这个完全两种东西。PCA是linear transformation, 如果plot出来
两个点之间的相似程度和他们的距离相关。t-SNE主要是为了低维
可视化设计的,做cluster一般比PCA漂亮多了,但是除非两个点
很近,否则你没法根据距离做啥可靠的结论。

【在 j*********g 的大作中提到】
: rt
avatar
c*e
7

pca?两个点之间的相似程度和他们的距离相关?? Not always.
PCA subspace is to maximize the retained sample variance, rather than
keeping
similarity.

【在 s******s 的大作中提到】
: 这个完全两种东西。PCA是linear transformation, 如果plot出来
: 两个点之间的相似程度和他们的距离相关。t-SNE主要是为了低维
: 可视化设计的,做cluster一般比PCA漂亮多了,但是除非两个点
: 很近,否则你没法根据距离做啥可靠的结论。

avatar
s*s
8
PCA本来就是欧几里得距离similarity matrix做eigenanalysis,naturally
capture点之间相似性信息。
你去仔细想一想,其实retain sample variance和retain dissimilarity差不
多是一个意思

【在 c********e 的大作中提到】
:
: pca?两个点之间的相似程度和他们的距离相关?? Not always.
: PCA subspace is to maximize the retained sample variance, rather than
: keeping
: similarity.

avatar
c*e
9

retain dissimilarity (PCA) is different than retain similarity (tSNE).

【在 s******s 的大作中提到】
: PCA本来就是欧几里得距离similarity matrix做eigenanalysis,naturally
: capture点之间相似性信息。
: 你去仔细想一想,其实retain sample variance和retain dissimilarity差不
: 多是一个意思

avatar
s*s
10
PCA retains similarity in terms of distance
tSNE retains similarity in terms of probability
我已经说了,distance matrix做eigenanalysis, distance当然相关,和你
说retain variance并不是非此即彼的关系
至于similarity还是dissimilarity, PCA里面叫similarity matrix, PCoA里面叫
dissimilarity matrix, 叫法不一样而已。

【在 c********e 的大作中提到】
:
: retain dissimilarity (PCA) is different than retain similarity (tSNE).

avatar
c*e
11
Firstly,tSNE probability is calculated based on the euclidean distance.
Secondly, for biological data, retain sample variance does not mean '
naturally capture'. You have to assume linear structure, eigenvalues are
actually inflated loadings, a modern version probabilistic PCA might be
better (to solve contaminated error variance).
Thirdly, PCA is not able to directly measure true relationship of high
dimensional data without helping with other ML technique.
avatar
r*e
12
请问各位生物信息前辈,都是转到了data science吗?
我觉得我们从bioinfor过度到data science是很自然的。但大家都说data sci的坑远远
不如CS SDE的多
所以还不如直接转CS,毕竟对于转行的人,先入坑是最重要的
一方面要练machine learning这些python,一方面又要补课学java,怕贪心忙不过来

【在 j*********g 的大作中提到】
: rt
avatar
c*e
13
java is enough.
You need to know C to work in the field of machine learning.
avatar
A*n
14
哪个图画出来好看用哪个:)
即使是用tSNE画图,也还是最好先用PCA降维,顺便观察数据结构。

【在 j*********g 的大作中提到】
: rt
avatar
c*e
15

Why it is better use linear methods to reduce dimension first, followed by
non-linear?

【在 A*****n 的大作中提到】
: 哪个图画出来好看用哪个:)
: 即使是用tSNE画图,也还是最好先用PCA降维,顺便观察数据结构。

avatar
A*n
16
当数据维数很高的时候,比如3万多个基因,尤其其中还有一些co-linear的特征,使用
PCA以及SVD有助于将数据维数降到一个合理范围,比如50或者100以下。这样对于距离
矩阵的计算有很大帮助,另外也有助于减少噪音对于距离计算的影响。这个时候可以试
着用PC1 to 3 先对数据进行初步的观察,看看有没有一些结构。如果PC1 to 3的total
variance实在太小,这个时候才考虑用tSNE做进一步的降维分析。当然如果象CyTOF这
种维数本来就比较低,而且基因之间差异又比较大的数据,倒是无所谓。
所有非线性的转换如果不选择合适的参数的话,结果很容易misleading,发现一些
artificial的结构。不过这种负结论很多人不爱听。
http://distill.pub/2016/misread-tsne/

【在 c********e 的大作中提到】
:
: Why it is better use linear methods to reduce dimension first, followed by
: non-linear?

avatar
c*l
17
这个说法有点误导人, 现在machine learning, 很多人只用python就可以搞定了, C不
是必须的

【在 c********e 的大作中提到】
: java is enough.
: You need to know C to work in the field of machine learning.

avatar
s*s
18
tSNE一般动不动就是算个1000遍10000遍的找个最优解,你sure想从几万维算起?

【在 c********e 的大作中提到】
:
: Why it is better use linear methods to reduce dimension first, followed by
: non-linear?

avatar
s*s
19
请教一下,有啥算PCA节省内存的软件?
我有一个10k x 500k维度的数据,在R里面算把我200G的内存都搞爆了,现在只能
subsampling才能算,不爽

total

【在 A*****n 的大作中提到】
: 当数据维数很高的时候,比如3万多个基因,尤其其中还有一些co-linear的特征,使用
: PCA以及SVD有助于将数据维数降到一个合理范围,比如50或者100以下。这样对于距离
: 矩阵的计算有很大帮助,另外也有助于减少噪音对于距离计算的影响。这个时候可以试
: 着用PC1 to 3 先对数据进行初步的观察,看看有没有一些结构。如果PC1 to 3的total
: variance实在太小,这个时候才考虑用tSNE做进一步的降维分析。当然如果象CyTOF这
: 种维数本来就比较低,而且基因之间差异又比较大的数据,倒是无所谓。
: 所有非线性的转换如果不选择合适的参数的话,结果很容易misleading,发现一些
: artificial的结构。不过这种负结论很多人不爱听。
: http://distill.pub/2016/misread-tsne/

avatar
c*e
20

Python scikit learn has "Incremental PCA". difficult to avoid subsampling.

【在 s******s 的大作中提到】
: 请教一下,有啥算PCA节省内存的软件?
: 我有一个10k x 500k维度的数据,在R里面算把我200G的内存都搞爆了,现在只能
: subsampling才能算,不爽
:
: total

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。