有啥通过语义理解提取信息的轮子?# Programming - 葵花宝典W*o2018-03-08 08:031 楼比如给一个url,从里面提取 地址,价格,和 电话好吗等信息各个网页的dom structure和 格式(比如地址格式)可能会很不一样,所以排除regex有啥information extraction现成的轮子满足这个需求不?
x*u2018-03-08 08:032 楼你首先得搞个爬虫把文本dump出来吧,剩下的就是词槽问题了,微软还是谷歌应该有云pi可以训练的regex【在 W***o 的大作中提到】: 比如给一个url,从里面提取 地址,价格,和 电话好吗等信息: 各个网页的dom structure和 格式(比如地址格式)可能会很不一样,所以排除regex: 有啥information extraction现成的轮子满足这个需求不?
n*22018-03-08 08:033 楼antlrregex【在 W***o 的大作中提到】: 比如给一个url,从里面提取 地址,价格,和 电话好吗等信息: 各个网页的dom structure和 格式(比如地址格式)可能会很不一样,所以排除regex: 有啥information extraction现成的轮子满足这个需求不?
W*o2018-03-08 08:034 楼这个不用爬虫吧?单个的url,可以用各种soup/html parser 来把text 扒出来后再给微软云吧? 需要及时的,所以训练是否得提前进行? 这个不现实,因为无法预测到所有url【在 x****u 的大作中提到】: 你首先得搞个爬虫把文本dump出来吧,剩下的就是词槽问题了,微软还是谷歌应该有云: pi可以训练的: : regex
x*u2018-03-08 08:035 楼我的意思是如果人家不让你批量dump,你得学爬虫绕过验证码什么的吧【在 W***o 的大作中提到】: 这个不用爬虫吧?单个的url,可以用各种soup/html parser 来把text 扒出来后再给: 微软云吧? 需要及时的,所以训练是否得提前进行? 这个不现实,因为无法预测到所: 有url