有关clustering - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>DataSciences - 数据科学

有关clustering

有关clustering# DataSciences - 数据科学

I*22014-12-29 08:12

1 楼

求教一下有关clustering的问题，
比如说10,000 pairwise 的数据的distance file是1Gb左右的大小，可以用hierarchy
clustering作出几百对非常reasonable的clusters (用numpy和R..)。如果要scale up
e.g. 100,000 个数据点，光打开distance file这memory占用就过大了，求教应该如
何处理？
多谢，多谢

w*k2014-12-29 08:12

2 楼

假设10000个数据点统计分布和10万个相似
可以根据那1万个的cluster结果，去看另外9万个应该归于哪个cluster

hierarchy
up

【在 I********2 的大作中提到】

: 求教一下有关clustering的问题，
: 比如说10,000 pairwise 的数据的distance file是1Gb左右的大小，可以用hierarchy
: clustering作出几百对非常reasonable的clusters (用numpy和R..)。如果要scale up
: e.g. 100,000 个数据点，光打开distance file这memory占用就过大了，求教应该如
: 何处理？
: 多谢，多谢

h*32014-12-29 08:12

3 楼

如果不是很苛求精度，可以考虑BIRCH等streaming clustering算法，速度非常快。
http://www.cs.sfu.ca/CourseCentral/459/han/papers/zhang96.pdf
话说这算法提出都十多年了，也拿了所有research paper能够拿到的各种奖项，可惜大
部分统计出身的人都不太爱看database圈子的paper。

hierarchy
up

【在 I********2 的大作中提到】

I*22014-12-29 08:12

4 楼

10000个数据点统计分布和10万个不一定相似。：-（所以可能先做一次分类是个
option..
同时谢谢hotpot...马上去看看BIRCH