S*e
3 楼
就是从一些网站抓link分析然后下载点东西。我目前只知道用java和apache的
httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西,好像能简化
开发过程。不知道还有什么简单易用的?
httpclient抓回网页然后分析文本,今天google到一个叫selenium的东西,好像能简化
开发过程。不知道还有什么简单易用的?
i*i
6 楼
c*l
8 楼
phantomjs口碑相当不错
【在 i**i 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: https://github.com/cheeriojs/cheerio 很好用
: http://phantomjs.org/ 没用过,比较牛。
【在 i**i 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: https://github.com/cheeriojs/cheerio 很好用
: http://phantomjs.org/ 没用过,比较牛。
t*r
10 楼
赞,正打算找
c*l
11 楼
http://python.memect.com/?tag=textextraction
这里有一些text extract的东西,和web scrape不完全一样,但相关度很高
这里有一些text extract的东西,和web scrape不完全一样,但相关度很高
l*t
12 楼
嗯 动态页面 或者很多交互的话phantomjs不错
如果只是静态页面的话python beautifulsoup就可以搞定了
【在 i**i 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: https://github.com/cheeriojs/cheerio 很好用
: http://phantomjs.org/ 没用过,比较牛。
如果只是静态页面的话python beautifulsoup就可以搞定了
【在 i**i 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: https://github.com/cheeriojs/cheerio 很好用
: http://phantomjs.org/ 没用过,比较牛。
相关阅读
g++ command line一问mongodb和mysql的查询速度一个SAS sql的问题请问软件公司的产品经理通常是做什么的?C++里如果想定义一个以文件名为参数的constructorC++在linux下读一次系统时间要多少时间我来挖坑, 谈谈OOP/FP/SQL和人类思维习惯Node, Express 一问AWS deployment 用 Asgard 或者script?Node 1.5 times better than Java大牛们对Object C有何点评?这个是undefined的吗?有适合存取lisp表达式的database吗?nodejs到底有啥好的?大牛给解释解释?大部份 design pattern 是不需要的QW Home Automation 1.8.13.1101 releasedC++多线程写网络服务是不是快退出舞台了?请问有英语界面的类似百度网盘的网站吗?你们平时都是怎么把自己在公司做项目的代码拷贝到自己机器上关于印度IT的一个讨论