W*o
2 楼
需要抓取一些网站页面里的信息,主要是日期,以及状态;这些日期和状态可以有好多
种格式,拿绿卡版的信息作个例子:
信息1:
EB3 140 PP: 04/28/2016
EB3 140 PP: approved on 05/03/2016
信息2:
EB3 140 premium processing: 2016-04-28
EB3 140 PP: rejected on 2016-05-03
信息3:
EB2 140 屁屁: 2016年4月28
EB2 140 屁屁: 被拒 2016年5月3日
信息4:
EB1A 140 pp: 02/26/2016, approved: 03/02/2016
需要抓取/parse的信息(绿卡类型,申请类型(比如 140), pp否,提交日期,结果,
结果日期):
EB1A, 140 pp, 02/26/2016, approved: 03/02/2016
EB3, 140 premium processing / 140 PP, rejected on 2016-05-03
EB2, 140 屁屁, 被拒 2016年5月3日
这些信息可以任何形式出现,但是关键字(e.g 140)应该还是有的,有没有什么轮子可
以从网页抓这些无序信息?Python Beautifulsoup 可以用来抓取这些unstructured
data吗?
种格式,拿绿卡版的信息作个例子:
信息1:
EB3 140 PP: 04/28/2016
EB3 140 PP: approved on 05/03/2016
信息2:
EB3 140 premium processing: 2016-04-28
EB3 140 PP: rejected on 2016-05-03
信息3:
EB2 140 屁屁: 2016年4月28
EB2 140 屁屁: 被拒 2016年5月3日
信息4:
EB1A 140 pp: 02/26/2016, approved: 03/02/2016
需要抓取/parse的信息(绿卡类型,申请类型(比如 140), pp否,提交日期,结果,
结果日期):
EB1A, 140 pp, 02/26/2016, approved: 03/02/2016
EB3, 140 premium processing / 140 PP, rejected on 2016-05-03
EB2, 140 屁屁, 被拒 2016年5月3日
这些信息可以任何形式出现,但是关键字(e.g 140)应该还是有的,有没有什么轮子可
以从网页抓这些无序信息?Python Beautifulsoup 可以用来抓取这些unstructured
data吗?
W*o
7 楼
thanks man
【在 l**********n 的大作中提到】
: https://github.com/IonicaBizau/scrape-it
【在 l**********n 的大作中提到】
: https://github.com/IonicaBizau/scrape-it
相关阅读
请大家推荐个免费FTP server (linux)c#中如何动态创建变量名是应该深入弄爪哇还是数库?Go再不靠谱也比scala强Crosswalk comes to Ionic[KJPT]谷歌在补丁发布日前披露Windows漏洞 微软怒了 (转载)9000 员工裁900, 裁员风悄悄开始了?docker有没有windows client?新的<Web技术日报 >有没有把多个Iterable merge成一个的Scala days in sf.GoLang, Scala, Swift, Rust 哪个能在2015有关键性的突破?之前有人写过一个Python登录MITBBS的codejsoup真是好东东老话题:旧硬盘如何处理? (转载)io.js发布1.0版本了。正式和node.js打擂台ibm要雷四分之一人力?学生来请教问题,打印特定位置字符,读取硕大文件冷笑话Scala和Go都没啥戏。