[转载] 有没有人用过Nutch?# Internet - 有缘千里一线牵
c*o
1 楼
【 以下文字转载自 BuildingWeb 讨论区 】
【 原文由 csfoo 所发表 】
我只想用它来检索documents (.doc/.pdf/etc.)而非htm/html,但是如果我在
crawl-urlfilter.txt里面将htm/html skip掉是不行的,因为crawler根本就得不到
足够的link信息。是不是先crawl/fetch,之后在index的时候再将htm/html去掉呢?
应该怎样处理?谢谢!
【 原文由 csfoo 所发表 】
我只想用它来检索documents (.doc/.pdf/etc.)而非htm/html,但是如果我在
crawl-urlfilter.txt里面将htm/html skip掉是不行的,因为crawler根本就得不到
足够的link信息。是不是先crawl/fetch,之后在index的时候再将htm/html去掉呢?
应该怎样处理?谢谢!