有啥好轮子可以抓取网页里的不规则信息？ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

有啥好轮子可以抓取网页里的不规则信息？

有啥好轮子可以抓取网页里的不规则信息？# Programming - 葵花宝典

d*j2016-05-08 07:05

1 楼

4s其实六月份都可以出来的了。多了这么几个月在做什么呢？

W*o2016-05-08 07:05

2 楼

需要抓取一些网站页面里的信息，主要是日期，以及状态；这些日期和状态可以有好多
种格式，拿绿卡版的信息作个例子：
信息1:
EB3 140 PP: 04/28/2016
EB3 140 PP: approved on 05/03/2016
信息2:
EB3 140 premium processing: 2016-04-28
EB3 140 PP: rejected on 2016-05-03
信息3:
EB2 140 屁屁: 2016年4月28
EB2 140 屁屁: 被拒 2016年5月3日
信息4:
EB1A 140 pp: 02/26/2016, approved: 03/02/2016
需要抓取/parse的信息（绿卡类型，申请类型（比如 140), pp否，提交日期，结果，
结果日期）：
EB1A, 140 pp, 02/26/2016, approved: 03/02/2016
EB3, 140 premium processing / 140 PP, rejected on 2016-05-03
EB2, 140 屁屁, 被拒 2016年5月3日
这些信息可以任何形式出现，但是关键字（e.g 140)应该还是有的，有没有什么轮子可
以从网页抓这些无序信息？Python Beautifulsoup 可以用来抓取这些unstructured
data吗？

r*y2016-05-08 07:05

3 楼

4s ＝ for steve

【在 d**j 的大作中提到】

: 4s其实六月份都可以出来的了。多了这么几个月在做什么呢？

l*n2016-05-08 07:05

4 楼

当然。

【在 W***o 的大作中提到】

: 需要抓取一些网站页面里的信息，主要是日期，以及状态；这些日期和状态可以有好多
: 种格式，拿绿卡版的信息作个例子：
: 信息1:
: EB3 140 PP: 04/28/2016
: EB3 140 PP: approved on 05/03/2016
: 信息2:
: EB3 140 premium processing: 2016-04-28
: EB3 140 PP: rejected on 2016-05-03
: 信息3:
: EB2 140 屁屁: 2016年4月28