Redian新闻
>
有啥通过语义理解提取信息的轮子?
avatar
有啥通过语义理解提取信息的轮子?# Programming - 葵花宝典
W*o
1
比如给一个url,从里面提取 地址,价格,和 电话好吗等信息
各个网页的dom structure和 格式(比如地址格式)可能会很不一样,所以排除regex
有啥information extraction现成的轮子满足这个需求不?
avatar
x*u
2
你首先得搞个爬虫把文本dump出来吧,剩下的就是词槽问题了,微软还是谷歌应该有云
pi可以训练的

regex

【在 W***o 的大作中提到】
: 比如给一个url,从里面提取 地址,价格,和 电话好吗等信息
: 各个网页的dom structure和 格式(比如地址格式)可能会很不一样,所以排除regex
: 有啥information extraction现成的轮子满足这个需求不?

avatar
n*2
3
antlr

regex

【在 W***o 的大作中提到】
: 比如给一个url,从里面提取 地址,价格,和 电话好吗等信息
: 各个网页的dom structure和 格式(比如地址格式)可能会很不一样,所以排除regex
: 有啥information extraction现成的轮子满足这个需求不?

avatar
W*o
4
这个不用爬虫吧?单个的url,可以用各种soup/html parser 来把text 扒出来后再给
微软云吧? 需要及时的,所以训练是否得提前进行? 这个不现实,因为无法预测到所
有url

【在 x****u 的大作中提到】
: 你首先得搞个爬虫把文本dump出来吧,剩下的就是词槽问题了,微软还是谷歌应该有云
: pi可以训练的
:
: regex

avatar
x*u
5
我的意思是如果人家不让你批量dump,你得学爬虫绕过验证码什么的吧

【在 W***o 的大作中提到】
: 这个不用爬虫吧?单个的url,可以用各种soup/html parser 来把text 扒出来后再给
: 微软云吧? 需要及时的,所以训练是否得提前进行? 这个不现实,因为无法预测到所
: 有url

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。