Redian新闻
>
从中国来向大家问个好 (转载)
avatar
从中国来向大家问个好 (转载)# Joke - 肚皮舞运动
b*e
1
How will you find the page with most incoming links from billions of web-
pages
avatar
s*s
2
【 以下文字转载自 Returnee 讨论区 】
发信人: uuiiuu (无), 信区: Returnee
标 题: 从中国来向大家问个好
发信站: BBS 未名空间站 (Wed Jun 30 03:59:03 2010, 美东)
回去了一段时间了,感觉还是很适应的,中国人多压力大动力也大,干什么都有大家的督
促.消费的确不低,一百元随便就用掉了,随便出去shopping一下就至少上千元,这还是去
那种半地摊的商场.商店里找回一角两角的时候就觉得特别奇怪,因为这点钱实在干不了
什么.家附近的幼儿园8000一个月,上不起,去了个2000的,环境不太理想,不过考虑到价
钱也还可以吧.出去吃个饭都至少每人两百的,还只是点的普通的鸡鸭鱼肉,不过服务是
好的多了.
avatar
l*a
3
i guess
hashmap, do it in a distributed environment.
avatar
b*e
4
Billion web pages, how distributed?

【在 l*****a 的大作中提到】
: i guess
: hashmap, do it in a distributed environment.

avatar
a*9
5
Random walk?
in probability, the pages with most incoming links will be visited most.

【在 b********e 的大作中提到】
: How will you find the page with most incoming links from billions of web-
: pages

avatar
s*y
6
nope. random walk will get you the page with highest pagerank value, not the
page with most inlinks.

【在 a****9 的大作中提到】
: Random walk?
: in probability, the pages with most incoming links will be visited most.

avatar
y*e
7
这个不就是PageRank那篇论文的idea嘛,Google就是以这篇Paper起家的。
首先要阐述的是incoming link count是怎么来的。
这就是写个Crawler咯,从一个Page走到另外一个Page,同时更新link count。
然后所有的page根据incoming link count排序,就可以了。
无论是Crawler还是排序,需要处理billion级别的数据。用MapReduce吧。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。