Redian新闻
>
有啥好轮子可以抓取网页里的不规则信息?
avatar
有啥好轮子可以抓取网页里的不规则信息?# Programming - 葵花宝典
d*j
1
4s其实六月份都可以出来的了。多了这么几个月在做什么呢?
avatar
W*o
2
需要抓取一些网站页面里的信息,主要是日期,以及状态;这些日期和状态可以有好多
种格式,拿绿卡版的信息作个例子:
信息1:
EB3 140 PP: 04/28/2016
EB3 140 PP: approved on 05/03/2016
信息2:
EB3 140 premium processing: 2016-04-28
EB3 140 PP: rejected on 2016-05-03
信息3:
EB2 140 屁屁: 2016年4月28
EB2 140 屁屁: 被拒 2016年5月3日
信息4:
EB1A 140 pp: 02/26/2016, approved: 03/02/2016
需要抓取/parse的信息(绿卡类型,申请类型(比如 140), pp否,提交日期,结果,
结果日期):
EB1A, 140 pp, 02/26/2016, approved: 03/02/2016
EB3, 140 premium processing / 140 PP, rejected on 2016-05-03
EB2, 140 屁屁, 被拒 2016年5月3日
这些信息可以任何形式出现,但是关键字(e.g 140)应该还是有的,有没有什么轮子可
以从网页抓这些无序信息?Python Beautifulsoup 可以用来抓取这些unstructured
data吗?
avatar
r*y
3
4s = for steve

【在 d**j 的大作中提到】
: 4s其实六月份都可以出来的了。多了这么几个月在做什么呢?
avatar
l*n
4
当然。

【在 W***o 的大作中提到】
: 需要抓取一些网站页面里的信息,主要是日期,以及状态;这些日期和状态可以有好多
: 种格式,拿绿卡版的信息作个例子:
: 信息1:
: EB3 140 PP: 04/28/2016
: EB3 140 PP: approved on 05/03/2016
: 信息2:
: EB3 140 premium processing: 2016-04-28
: EB3 140 PP: rejected on 2016-05-03
: 信息3:
: EB2 140 屁屁: 2016年4月28

avatar
c*y
5
因为白色版iphone卖得太好了,在那时候推新品没必要

【在 d**j 的大作中提到】
: 4s其实六月份都可以出来的了。多了这么几个月在做什么呢?
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。