Redian新闻
>
怎么抓取 产品的specifications?
avatar
怎么抓取 产品的specifications?# Programming - 葵花宝典
K*S
1
就在美国境内,机场看不看I94 的日子? 谢谢.
avatar
r*n
2
声音质量能不能到达10刀有线耳机的质量?
从来没有用过无线耳机,听说声音质量是个问题。
avatar
A*l
3
请教个问题,怎么从网上抓取产品的specifications?
我指的是,比方说,我想把市面上某一类的电子产品的specifications都抓下来,转化
成某种 structured data存下来?
我能想到的是从某些网站上(比方说newegg、amazon之类的),写个crawler爬它的网
站(可能需要预先人工identify它的产品specification页面的结构这样才能知道上面
哪部分是specification, 以及怎么parse它那部分的页面)。
有其他的更好的办法吗?
多谢!
avatar
m*r
4
我印象里有个网站专门收集,发布各种手册, 说明书。 我甚至下载过割草机的说明书
avatar
m*n
5
你这个行为叫“爬虫”
自己搜一下“爬虫”和“反爬虫”
avatar
A*l
6
多谢。知道爬虫。
这个问题的主要部分是怎么拿到需要的数据,因为这个爬完以后需要拿到的不是一般
search engine的inverted indexing,这个是最后需要“理解”最后parse到的数据,
就是理解那个spec里面每一项是什么。

【在 m*****n 的大作中提到】
: 你这个行为叫“爬虫”
: 自己搜一下“爬虫”和“反爬虫”

avatar
A*l
7
多谢!

【在 m******r 的大作中提到】
: 我印象里有个网站专门收集,发布各种手册, 说明书。 我甚至下载过割草机的说明书
avatar
l*n
8
如果你是从同一个网站上抓的,那么你看数据的tag和格式。如果是大量不同网站,只
能用nlp根据内容来分类判断,不过准确率不高

【在 A*********l 的大作中提到】
: 多谢。知道爬虫。
: 这个问题的主要部分是怎么拿到需要的数据,因为这个爬完以后需要拿到的不是一般
: search engine的inverted indexing,这个是最后需要“理解”最后parse到的数据,
: 就是理解那个spec里面每一项是什么。

avatar
m*r
9
大神对nlp也很有研究么 ? 我们这种层次低的人学什么关于nlp的东西有用 ? 什么方
向热门?
如果我想把销售人员和用户来来往往的邮件,对话用nlp分析一下, 看看用户怎么说,
这事nlp能干么?
我知道有软件已经干出来了, 我说我单干,是不是很难?
还有, 从社交网络搞一些对我司产品 ,和竞争产品的评价,这种事自然语言处理也能
干么? 仅限低层次,套套公式, 最多单干两个月要看到结果的人。

【在 l******n 的大作中提到】
: 如果你是从同一个网站上抓的,那么你看数据的tag和格式。如果是大量不同网站,只
: 能用nlp根据内容来分类判断,不过准确率不高

avatar
A*l
10
我想到了,在短期内,一个网站的数据的HTML的tag/格式应该是对同类产品都一样的。
想知道除此以外有没有什么地方有这些已经组织好的数据(structured data)可以抓。
十分感谢您的建议!

【在 l******n 的大作中提到】
: 如果你是从同一个网站上抓的,那么你看数据的tag和格式。如果是大量不同网站,只
: 能用nlp根据内容来分类判断,不过准确率不高

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。