有啥通过语义理解提取信息的轮子？ - 未名空间MITBBS历史存档

有啥通过语义理解提取信息的轮子？

有啥通过语义理解提取信息的轮子？# Programming - 葵花宝典

W*o2018-03-08 08:03

1 楼

比如给一个url，从里面提取地址，价格，和电话好吗等信息
各个网页的dom structure和格式（比如地址格式）可能会很不一样，所以排除regex
有啥information extraction现成的轮子满足这个需求不？

x*u2018-03-08 08:03

2 楼

你首先得搞个爬虫把文本dump出来吧，剩下的就是词槽问题了，微软还是谷歌应该有云
pi可以训练的

regex

【在 W***o 的大作中提到】

: 比如给一个url，从里面提取地址，价格，和电话好吗等信息
: 各个网页的dom structure和格式（比如地址格式）可能会很不一样，所以排除regex
: 有啥information extraction现成的轮子满足这个需求不？

n*22018-03-08 08:03

3 楼

antlr

regex

【在 W***o 的大作中提到】

W*o2018-03-08 08:03

4 楼

这个不用爬虫吧？单个的url，可以用各种soup/html parser 来把text 扒出来后再给
微软云吧？需要及时的，所以训练是否得提前进行？这个不现实，因为无法预测到所
有url

【在 x****u 的大作中提到】

: 你首先得搞个爬虫把文本dump出来吧，剩下的就是词槽问题了，微软还是谷歌应该有云
: pi可以训练的
:
: regex

x*u2018-03-08 08:03

5 楼

我的意思是如果人家不让你批量dump，你得学爬虫绕过验证码什么的吧

【在 W***o 的大作中提到】

: 这个不用爬虫吧？单个的url，可以用各种soup/html parser 来把text 扒出来后再给
: 微软云吧？需要及时的，所以训练是否得提前进行？这个不现实，因为无法预测到所
: 有url

2024-01-28 18:01

2024-01-09 19:01

2024-01-07 18:01

2024-01-06 18:01

2024-01-06 18:01

2023-12-13 17:12

2023-12-02 07:12

2023-11-26 18:11