[转载] 有没有人用过Nutch? - 未名空间MITBBS历史存档 | Redian News

国际科技财经博客移民网络热点娱乐民生时事公众号

>Internet - 有缘千里一线牵

>

[转载] 有没有人用过Nutch?

[转载] 有没有人用过Nutch?# Internet - 有缘千里一线牵

c*o2004-10-10 07:10

1 楼

【以下文字转载自 BuildingWeb 讨论区】
【原文由 csfoo 所发表】
我只想用它来检索documents (.doc/.pdf/etc.)而非htm/html,但是如果我在
crawl-urlfilter.txt里面将htm/html skip掉是不行的，因为crawler根本就得不到
足够的link信息。是不是先crawl/fetch,之后在index的时候再将htm/html去掉呢？
应该怎样处理？谢谢!

相关阅读

gmail down?互联网整合下码字大军难正名，大多没有“安全感”！网聊就是这样的不靠谱［急问！！］家里Win8 Desktop电脑各种帐号突然登录不进去！！网红的红人们走进现实生活是个什么样的？可悲可笑，让电脑高手马云来掌控中国的商业经济批量下载mp3音频流文件最好用什么软件？comcast 能不能用modem和无线路由器二合一的？微信QQ 343093680 毕业证,成绩单办理、教育部认证存档 DSL vs Cable internet 看看雅虎用户信息泄露的问题，看来资本主义还是披着民主的伪善女子网恋高富帅，见面不满意自杀给大家推荐个网络收藏夹 lenovo yoga系统升级 8.0 to 8.1没了网络 (转载)问一下ssh key pair和password的问题中国买的Wireless USB Network adapter带到美国能用么？API function to get the Wifi signal strength 有能记录所有网络访问地址的路由器么？请推荐路由器华为开启的战争时代

热点事件追踪

美国公司裁员Layoff

2024-01-28 18:01

2024-01-09 19:01

2024-01-07 18:01

美国堕胎权争议

2024-01-06 18:01

美国枪击案

2024-01-06 18:01

2023-12-13 17:12

2023-12-02 07:12

2023-11-26 18:11

中美航班重磅消息！每周85班，直飞更方便！

微软、亚马逊、谷歌大裁员！哪些科技和零售公司有缩减规模计划？

中国外长王毅：中美关系已经止跌回稳

脱轨事故造成20多人受伤联邦调查纽约市全部地铁系统

更多 2024-11-21 的新闻