有关clustering# DataSciences - 数据科学
I*2
1 楼
求教一下有关clustering的问题,
比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy
clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up
e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如
何处理?
多谢,多谢
比如说10,000 pairwise 的数据的distance file是1Gb左右的大小,可以用hierarchy
clustering作出几百对非常reasonable的clusters (用numpy和R..)。 如果要scale up
e.g. 100,000 个数据点,光打开distance file这memory占用就过大了, 求教应该如
何处理?
多谢,多谢