请教一道FB的面试题# JobHunting - 待字闺中C*n2016-06-22 07:061 楼有200M个用户,现在让你进行分组,将他们分成大概20个组,每个组里大概有10M的用户,尽量让用户interaction多的在一起。只想到也许能用Clustering coefficient来衡量用户之间的联系程度,但是分组还是没什么概念。
l*u2016-06-22 07:062 楼用merge?先随机选取几个用户当组,然后一个个处理incoming user,如果跟现存的所有组都没联系或者联系很小,就再创个组,否则加入到那个组之中,处理完后对所有的组再进行merge直到剩下20个组感觉没有标准答案啊
C*n2016-06-22 07:063 楼这样有很大的问题就是联系小的有很大的概率被放在一组,因为最开始选组的信息很少,会误以为已经选到联系大的组了【在 l****u 的大作中提到】: 用merge?先随机选取几个用户当组,然后一个个处理incoming user,如果跟现存的所: 有组都没联系或者联系很小,就再创个组,否则加入到那个组之中,处理完后对所有的: 组再进行merge直到剩下20个组: 感觉没有标准答案啊
l*u2016-06-22 07:064 楼那就分完之后再scan一遍,再把每个组里类似outlier的人拎出来重新assign一遍?:这样有很大的问题就是联系小的有很大的概率被放在一组,因为最开始选组的信息很少,会误以为已经选到联系大的组了:你再低调也没有用,你那拉风的头像、扎势的ID都深深的出卖了你【在 C*****n 的大作中提到】: 这样有很大的问题就是联系小的有很大的概率被放在一组,因为最开始选组的信息很少: ,会误以为已经选到联系大的组了
r*s2016-06-22 07:067 楼在一个无向图里求 min cut?【在 C*****n 的大作中提到】: 有200M个用户,现在让你进行分组,将他们分成大概20个组,每个组里大概有10M的用: 户,尽量让用户interaction多的在一起。: 只想到也许能用Clustering coefficient来衡量用户之间的联系程度,但是分组还是没: 什么概念。
g*e2016-06-22 07:068 楼典型的community sharding有不少关于这方面的paper【在 C*****n 的大作中提到】: 有200M个用户,现在让你进行分组,将他们分成大概20个组,每个组里大概有10M的用: 户,尽量让用户interaction多的在一起。: 只想到也许能用Clustering coefficient来衡量用户之间的联系程度,但是分组还是没: 什么概念。