脸家系统设计，web crawler, 机器之间不能通信。 (转载) - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Joke - 肚皮舞运动

脸家系统设计，web crawler, 机器之间不能通信。 (转载)

脸家系统设计，web crawler, 机器之间不能通信。 (转载)# Joke - 肚皮舞运动

c*n2017-06-29 07:06

1 楼

【以下文字转载自 JobHunting 讨论区】
发信人: ravichouhan (ravi!), 信区: JobHunting
标题: 脸家系统设计，web crawler, 机器之间不能通信。
发信站: BBS 未名空间站 (Thu Jun 29 02:17:19 2017, 美东)
被问了这个crawler的问题，大概就是给你10K个机器，每个机器有seed url，然
后要爬1B的url，机器之间不能通信，问你怎么样每个机器才能平均的分任务。同时保
证每个网站只能被crawler一次。
奇怪的设计题，完全没有master，就是很多事情都不好做了
纠缠了十几分钟后突然意识到这完全是个brain teaser式的system design，然后想到
了类似UUID hashing，对拿到的url做hash，事先规定好每台机器都只做那些hash
value的job，如果hash的值跟当前机器的预定值不一样就skip，一样才继续crawl
算是蒙混过关，又问了两个follow up问题，第二个没想好时间就到了
1. 如何判断crawling结束
2. 如果一半机器比另一半快怎样分配
请问大家什么思路?

c*n2017-06-29 07:06

2 楼

这题的follow up怎么做啊
怎么都想不出来尤其是第二个，
机器快没鸟用如果分配给快的都是土豆服务器上的链接，你本身再快也没用啊
没一个挥鞭子的互相又不能交流这效率肯定很低啊

y*i2017-06-29 07:06

3 楼

为啥要设定“机器之间不能通信”这个条件？

V*n2017-06-29 07:06

4 楼

把url编码然后加总得一数字，把这个数字除以crawler数量得到余数，一号crawler爬
余数为1的url，二号crawer爬余数为2的....

c*n2017-06-29 07:06

5 楼

你这个只解决了最开始分配的问题
之后的才是麻烦的

【在 V********n 的大作中提到】

: 把url编码然后加总得一数字，把这个数字除以crawler数量得到余数，一号crawler爬
: 余数为1的url，二号crawer爬余数为2的....

c*n2017-06-29 07:06

6 楼

我也奇怪这点不是知道是不是原lz转述时候的问题

【在 y****i 的大作中提到】

: 为啥要设定“机器之间不能通信”这个条件？

s*d2017-06-29 07:06

7 楼

按快慢加权不就好了。
编号后除以总速度，每个机器余数区间按速度比例。

【在 c******n 的大作中提到】

: 你这个只解决了最开始分配的问题
: 之后的才是麻烦的

o*p2017-06-29 07:06

8 楼

雪特，这第一题小脑也知道hash一下了，居然想十多分钟…
第二题不懂

【在 c******n 的大作中提到】

: 我也奇怪这点不是知道是不是原lz转述时候的问题

c*n2017-06-29 07:06

9 楼

嗯第一题没啥好说的 hash了均分了拉到各种优化都容易有坑
而且本身crawler，分开点弄还不怕被封IP
但是第二个这个完全不知道怎么搞

【在 o****p 的大作中提到】

: 雪特，这第一题小脑也知道hash一下了，居然想十多分钟…
: 第二题不懂

V*n2017-06-29 07:06

10 楼

如果按照余数分配，基本上是非常均匀的，怎么可能出现follow up的问题二呢？如果
知道总url数，follow up的问题一也就不存在了吧

V*n2017-06-29 07:06

11 楼

如果是crawler本身机器快慢或者crawler的算法不同引起的，那应该管用，如果是url
的内容引起的，这样不好使吧

: 按快慢加权不就好了。

: 编号后除以总速度，每个机器余数区间按速度比例。

【在 s**********d 的大作中提到】

: 按快慢加权不就好了。
: 编号后除以总速度，每个机器余数区间按速度比例。

w*m2017-06-29 07:06

12 楼

hash也有问题，因为1b url不是事先知道的,要用dfs去网上crawl下来去发现新的url
但是如果发现一个URL不在自己的hash范围内，就不去crawl，那就没法去接着发现新的
属于自己的url。很多机器很快就得stop
他还要求每个url只能被crawl一遍，更麻烦。

【在 c******n 的大作中提到】

: 嗯第一题没啥好说的 hash了均分了拉到各种优化都容易有坑
: 而且本身crawler，分开点弄还不怕被封IP
: 但是第二个这个完全不知道怎么搞