avatar
I*2
1
求教一下有关clustering的问题,
比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy
clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up
e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如
何处理?
多谢,多谢
avatar
w*k
2
假设10000个数据点统计分布和10万个相似
可以根据那1万个的cluster结果,去看另外9万个应该归于哪个cluster

hierarchy
up

【在 I********2 的大作中提到】
: 求教一下有关clustering的问题,
: 比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy
: clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up
: e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如
: 何处理?
: 多谢,多谢

avatar
h*3
3
如果不是很苛求精度,可以考虑BIRCH等streaming clustering算法,速度非常快。
http://www.cs.sfu.ca/CourseCentral/459/han/papers/zhang96.pdf
话说这算法提出都十多年了,也拿了所有research paper能够拿到的各种奖项,可惜大
部分统计出身的人都不太爱看database圈子的paper。

hierarchy
up

【在 I********2 的大作中提到】
: 求教一下有关clustering的问题,
: 比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy
: clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up
: e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如
: 何处理?
: 多谢,多谢

avatar
I*2
4
10000个数据点统计分布和10万个不一定相似。:-( 所以可能先做一次分类是个
option..
同时谢谢hotpot...马上去看看BIRCH
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。