avatar
求助 信息提取 (转载)# DataSciences - 数据科学
o*e
1
【 以下文字转载自 JobHunting 讨论区 】
发信人: Dower (Historian), 信区: JobHunting
标 题: 密歇根欲申请5万专用工作签证(第一年发放5000)
发信站: BBS 未名空间站 (Fri May 16 00:33:58 2014, 美东)
http://www.reuters.com/article/2014/01/23/us-usa-detroit-immigr
(Reuters) - Michigan Governor Rick Snyder unveiled a proposal on Thursday
that calls for the U.S. government to allocate 50,000 special visas over the
next five years to lure highly skilled immigrants to live and work in the
bankrupt city of Detroit.
avatar
n*5
2
我有一个 10 * 100K的矩阵, 10 是10个feature, 100K 是数据点,每个点会包括一
些或者全部feature。
F1, F2, ... FN
数据就是 data1 1, 0, 0, 1 ...
data2 1, 0, 1, 1 ...
现在我想求出这10个feature 之间的关系,比如说把10个feature,每个feature 对应
一个(x,y) 然后把10个feature 画出来。
请问应该用什么方法?
十分感谢
avatar
o*e
3
顶!
avatar
Y*a
4
同学,你知道你在说什么吗?
你的数据是在一个10维空间里,目前的技术似乎只可以直观的显示3维空间中的点面线
等。
avatar
Y*a
5
你可以画10个单独的series出来,不确定这样的意义有多大
或者45个pairwise的contigency table。
avatar
i*r
6
不想复杂, 你就是要看 10 个feautre之间的关系, 做一个correlation/covariance
matrix, 这个matrix就capture了所有10个feature两两之间相关性。 然后在这个cor
matrix做个hiearchical clustering, 你就看出来相互之间的关系, 这样最简单,
因为correlation matrix 是normalized cov, 阈值范围 (-1,1), 一幕了然。
R code for simulation variable 7,8,9,10 和variable 1 是正相关:
x = matrix(rnorm(40,mean=2),ncol=10)
for(i in 7:10) x[,i] = x[,1]*i + rnorm(4)
x.cor = cor(x)
gplots::heatmap.2(x.cor)
你会看见1,7-10 会group在一起的, 还不明白的话google “hierachical clustering
” 和 “heatmap”
复杂点的, 做 multidimension scaling 或者 PCA 投影到 2 维, 你可以看出那几个
变量在坐标轴上更近. google
avatar
c*z
7
👍赞

covariance
cor
clustering

【在 i*r 的大作中提到】
: 不想复杂, 你就是要看 10 个feautre之间的关系, 做一个correlation/covariance
: matrix, 这个matrix就capture了所有10个feature两两之间相关性。 然后在这个cor
: matrix做个hiearchical clustering, 你就看出来相互之间的关系, 这样最简单,
: 因为correlation matrix 是normalized cov, 阈值范围 (-1,1), 一幕了然。
: R code for simulation variable 7,8,9,10 和variable 1 是正相关:
: x = matrix(rnorm(40,mean=2),ncol=10)
: for(i in 7:10) x[,i] = x[,1]*i + rnorm(4)
: x.cor = cor(x)
: gplots::heatmap.2(x.cor)
: 你会看见1,7-10 会group在一起的, 还不明白的话google “hierachical clustering

avatar
n*5
8
做了PCA 投影到 2 维。
十分感谢!!

covariance
cor
clustering

【在 i*r 的大作中提到】
: 不想复杂, 你就是要看 10 个feautre之间的关系, 做一个correlation/covariance
: matrix, 这个matrix就capture了所有10个feature两两之间相关性。 然后在这个cor
: matrix做个hiearchical clustering, 你就看出来相互之间的关系, 这样最简单,
: 因为correlation matrix 是normalized cov, 阈值范围 (-1,1), 一幕了然。
: R code for simulation variable 7,8,9,10 和variable 1 是正相关:
: x = matrix(rnorm(40,mean=2),ncol=10)
: for(i in 7:10) x[,i] = x[,1]*i + rnorm(4)
: x.cor = cor(x)
: gplots::heatmap.2(x.cor)
: 你会看见1,7-10 会group在一起的, 还不明白的话google “hierachical clustering

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。