问个R的问题 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>DataSciences - 数据科学

问个R的问题

问个R的问题# DataSciences - 数据科学

C*a2014-12-06 08:12

1 楼

有nxk的一组数据，包括n个数据，每个数据有k个covariate，
这k个covariate有的是numerical，有的是categorical，
现在任取一个数据，找出和它最‘相似’的10个数据，
这个在R里面怎么实现，改用那个包？

c*12014-12-06 08:12

2 楼

On top of my head，要实现这个功能并没有现成的package或者function可以调用。
如果要自己写代码来实现的话感觉还颇有难度。如果采用euclidean distance to
measure similarity, the distance would be dominated by the distance of
numerical covariates. 换句话说categorical covariates is somewhat ignored in
the similarity metrics.
谷歌了下，关于similarity metrics of categorical variables没有简单现成的答案
，基本都是paper。不知版上诸多大牛是否有好的解决方法？

f*82014-12-06 08:12

3 楼

"任取一个数据，找出和它最‘相似’的10个数据，"这个好办，用apply就可以，比如：
sort(apply(mtcars[-1, ], 1, function(x) cor(x, unlist(mtcars[1, ]))),
decreasing=TRUE)[1:10]
至于categorical的数据如何处理，需要自己定义一个cor 函数.

【在 C*******a 的大作中提到】

: 有nxk的一组数据，包括n个数据，每个数据有k个covariate，
: 这k个covariate有的是numerical，有的是categorical，
: 现在任取一个数据，找出和它最‘相似’的10个数据，
: 这个在R里面怎么实现，改用那个包？

l*n2014-12-06 08:12

4 楼

弄怎么定义相似？

【在 C*******a 的大作中提到】

n*32014-12-06 08:12

5 楼

I think it depends on the question:
nearest neighborhood, Edit Distance , or just the the corr like last post.

【在 l******n 的大作中提到】

: 弄怎么定义相似？

m*O2014-12-06 08:12

6 楼

你这个问题问得不在点上啊
最重要的是搞清楚什么是“相似”，搞清楚了以后再谈implementation

【在 C*******a 的大作中提到】

m*s2014-12-06 08:12

7 楼

相似度是个很泛的概念，有很多不同的定义，看你取那个了。还有比如numerical变量
要不要做normalization，不然换个单位相似度就不一样了

d*c2014-12-06 08:12

8 楼

说到apply，上次我折腾很久，什么apply，mapply，各种apply family，发现只有最简
单的函数用这种apply看起来容易，稍微复杂一点，尤其是数据结构复杂的时候就很麻
烦，而且后来发现各种apply实质就是for loop，还不如直接写for loop，性能上没有
损失，而且处理数据结构简单明了。
之前我是怕for loop没用上vectorization所以去尝试apply，但是apply并不是真正
vectorization，只是for loop的简写形式而已。有builtin vectorization的函数当然
一定要用，否则的话除非特别简单的函数，感觉没必要用apply。

如：

【在 f***8 的大作中提到】

: "任取一个数据，找出和它最‘相似’的10个数据，"这个好办，用apply就可以，比如：
: sort(apply(mtcars[-1, ], 1, function(x) cor(x, unlist(mtcars[1, ]))),
: decreasing=TRUE)[1:10]
: 至于categorical的数据如何处理，需要自己定义一个cor 函数.

f*82014-12-06 08:12

9 楼

http://adv-r.had.co.nz/Functionals.html

【在 d******c 的大作中提到】

: 说到apply，上次我折腾很久，什么apply，mapply，各种apply family，发现只有最简
: 单的函数用这种apply看起来容易，稍微复杂一点，尤其是数据结构复杂的时候就很麻
: 烦，而且后来发现各种apply实质就是for loop，还不如直接写for loop，性能上没有
: 损失，而且处理数据结构简单明了。
: 之前我是怕for loop没用上vectorization所以去尝试apply，但是apply并不是真正
: vectorization，只是for loop的简写形式而已。有builtin vectorization的函数当然
: 一定要用，否则的话除非特别简单的函数，感觉没必要用apply。
:
: 如：

c*12014-12-06 08:12

10 楼

谢谢这位大牛的分享！我一直想系统地学习apply这些函数，之前一直没有找到好的资源

【在 f***8 的大作中提到】

: http://adv-r.had.co.nz/Functionals.html

d*c2014-12-06 08:12

11 楼

多谢，知道这本书，还一直没时间看。
另外找到这篇blog也写的不错，可以参考
http://www.noamross.net/blog/2014/4/16/vectorization-in-r--why.

【在 f***8 的大作中提到】

: http://adv-r.had.co.nz/Functionals.html