Redian新闻
>
求推荐一个search internet的API
avatar
求推荐一个search internet的API# Programming - 葵花宝典
o*1
1
比如我想查询某个方面的书的信息,我输入关键字,然后我的php程序就调用搜索引擎
interface函数,去我制定的某些网站,比如amazon,abebooks,barns&nobel, ebay之
类的去搜索该方面的书的信息。然后用html parser把我想要的内容保存下来。最后根
据我给定的ranking方法,把结果返回显示就行了。
要求:
1. 免费;
2. 支持Linux;
3. 支持php;
多谢了!
avatar
z*e
2
web search跟api没半毛钱关系
其核心是数据的相似性
主要靠线性代数和统计model
在terms的space里面找相似性
也不是没有,但是这一块太新,可用的不多
你考虑一下apache lucene
avatar
o*1
3
多谢回复!
我说的不清楚,就是要找能根据关键字search internet的API。

【在 z****e 的大作中提到】
: web search跟api没半毛钱关系
: 其核心是数据的相似性
: 主要靠线性代数和统计model
: 在terms的space里面找相似性
: 也不是没有,但是这一块太新,可用的不多
: 你考虑一下apache lucene

avatar
z*e
4
老弟,我知道你问的是什么
我已经给你答案了
关键字有至少三种模型可以用
线性代数的模型
统计的模型
还有上下文相关的概率模型
这个你要上点课才能明白
还有就是,现成的轮子就是Apache Lucene
google的系统也不公开,你也用不了,更谈不上免费
要做成php需要你自己搭轮子
你可能还需要apache http server
两个轮子如何凑,只能看文档

【在 o******1 的大作中提到】
: 多谢回复!
: 我说的不清楚,就是要找能根据关键字search internet的API。

avatar
z*e
5
web search是纯粹的数学问题
从理论上说
avatar
z*e
6
你上课时候你就知道
tmd python有多慢了
java的性能优势很明显
学生们都要求用java
不过为了防止学生用lucence
还是不许
avatar
z*e
7
山寨google其实没那么容易
呵呵
avatar
z*e
8
tfidf写起来很难么?

【在 o******1 的大作中提到】
: 多谢回复!
: 我说的不清楚,就是要找能根据关键字search internet的API。

avatar
z*e
9
你是说你要的是web crawler吗?
找任何一个语言的http包
java里面就有http client
http://hc.apache.org/httpclient-3.x/

【在 o******1 的大作中提到】
: 多谢回复!
: 我说的不清楚,就是要找能根据关键字search internet的API。

avatar
z*e
10
再凑一个c*数据库用来放你的文件
然后建index,存到c*里面去
把历史文件放到hbase里面去
这样
这么多功能点,只能搭轮子了啊
avatar
o*1
11
你得知道有哪些文件可比较啊。
比如google保存的indexed的文件,它自己可以根据客户的query去比较。我们能直接
access那些文件吗?

【在 z****e 的大作中提到】
: tfidf写起来很难么?
avatar
o*1
12
所以不想山寨,直接找现成的轮子啊

【在 z****e 的大作中提到】
: 山寨google其实没那么容易
: 呵呵

avatar
z*e
13
不行
文件的存放可能只能靠你们自己建,然后靠时间的积累来逐步增多这样

【在 o******1 的大作中提到】
: 你得知道有哪些文件可比较啊。
: 比如google保存的indexed的文件,它自己可以根据客户的query去比较。我们能直接
: access那些文件吗?

avatar
o*1
14
数学问题大概知道理论就行了。但是不解决实际问题。
实际问题,还是要找轮子啊。自己做一是缺少资源,而是没那时间。

【在 z****e 的大作中提到】
: web search是纯粹的数学问题
: 从理论上说

avatar
z*e
15
这个我感觉是真没有……
lucence算是最接近你要求的了
然后七拼八凑一些轮子可能可以逼近
但是离你马上就需要结果的要求,还有一个时间上的差距
你需要时间和空间来建你的数据库

【在 o******1 的大作中提到】
: 所以不想山寨,直接找现成的轮子啊
avatar
o*1
16
我就做个小小的搜索的应用程序,哪里是想自己做个搜索引擎去pk google,yahoo,
bing和百度啊

【在 z****e 的大作中提到】
: 不行
: 文件的存放可能只能靠你们自己建,然后靠时间的积累来逐步增多这样

avatar
z*e
17
轮子有,但是可能离你真正解决实际问题,还需要时间和空间上的投入
也就是说,轮子拼凑好了之后,你还需要等一段时间才行呀

【在 o******1 的大作中提到】
: 数学问题大概知道理论就行了。但是不解决实际问题。
: 实际问题,还是要找轮子啊。自己做一是缺少资源,而是没那时间。

avatar
z*e
18
但是你说的搜索是搜索整个internet啊

【在 o******1 的大作中提到】
: 我就做个小小的搜索的应用程序,哪里是想自己做个搜索引擎去pk google,yahoo,
: bing和百度啊

avatar
o*1
19
我自己在网上倒是搜到了一些,比如duckduckgo, libcurl,faroo,winesearcher之类
的。但是从来没有用过,所以想找大家推荐推荐。

【在 z****e 的大作中提到】
: 这个我感觉是真没有……
: lucence算是最接近你要求的了
: 然后七拼八凑一些轮子可能可以逼近
: 但是离你马上就需要结果的要求,还有一个时间上的差距
: 你需要时间和空间来建你的数据库

avatar
z*e
20
是不是我理解得有点问题
你说的可能不是api
而是web service的接口?

【在 o******1 的大作中提到】
: 多谢回复!
: 我说的不清楚,就是要找能根据关键字search internet的API。

avatar
z*e
21
你说的是不是某个网站提供的web service的interface?
然后让你写http call去调用酱紫?

【在 o******1 的大作中提到】
: 我自己在网上倒是搜到了一些,比如duckduckgo, libcurl,faroo,winesearcher之类
: 的。但是从来没有用过,所以想找大家推荐推荐。

avatar
o*1
22
是不是搜索所谓的“整个internet”,其实就是看引擎的提供者保存的index的文件的
量有多大啦。就算是google,原则上也不能说是搜索了整个internet,它只是在自己的
数据库里搜索。

【在 z****e 的大作中提到】
: 但是你说的搜索是搜索整个internet啊
avatar
o*1
23
就这个意思。哪个被调用的难道不叫api吗?

【在 z****e 的大作中提到】
: 你说的是不是某个网站提供的web service的interface?
: 然后让你写http call去调用酱紫?

avatar
z*e
24
api是application programming interface
一般是指os等system层面提供给application的接口
网络这个一般叫web service的interface,不叫api

【在 o******1 的大作中提到】
: 就这个意思。哪个被调用的难道不叫api吗?
avatar
z*e
25
如果是酱紫的话,嗯,这个我也没用过
你应该不需要搭轮子,你需要找到php能够发送http请求并处理的轮子
然后向你用的信息源发送请求就好了
至于哪个更好用,嗯,我也没做过,这个看看谁更有经验酱紫

【在 o******1 的大作中提到】
: 就这个意思。哪个被调用的难道不叫api吗?
avatar
o*1
26
就是这个意思,用已有的搜索引擎向我制定的一些网站去发送请求,然后把结果返回就
行了。
举个简单的例子,我想查询某个方面的书的信息,我输入关键字,然后我的php程序就
调用搜索引擎的interface函数,去我制定的某些网站,比如amazon,abebooks,barns
&nobel, ebay之类的去搜索该方面的书的信息。然后用html parser把我想要的内容保
存下来。最后根据我给定的ranking方法,把结果返回显示就行了。

【在 z****e 的大作中提到】
: 如果是酱紫的话,嗯,这个我也没用过
: 你应该不需要搭轮子,你需要找到php能够发送http请求并处理的轮子
: 然后向你用的信息源发送请求就好了
: 至于哪个更好用,嗯,我也没做过,这个看看谁更有经验酱紫

avatar
d*u
27
我靠,楼上几位的语文是在老挝学的吧?扯了半天连问题是什么都美搞懂居然就给方案
了,怪不得大妈最爱JAVA,狗都能用呀。
不过,你别说,有当A3的潜质.

barns

【在 o******1 的大作中提到】
: 就是这个意思,用已有的搜索引擎向我制定的一些网站去发送请求,然后把结果返回就
: 行了。
: 举个简单的例子,我想查询某个方面的书的信息,我输入关键字,然后我的php程序就
: 调用搜索引擎的interface函数,去我制定的某些网站,比如amazon,abebooks,barns
: &nobel, ebay之类的去搜索该方面的书的信息。然后用html parser把我想要的内容保
: 存下来。最后根据我给定的ranking方法,把结果返回显示就行了。

avatar
o*1
28
为了避免混淆,再次澄清,不是自己做web crawling,就是调用已有的搜索引擎的返回
给用户的界面函数,把相关的文件传给我就行了。可能应该叫传输搜索结果的api。
比如想搜索某方面的书籍,输入关键字,然后php程序就调用此api的函数,把相应的搜
索引擎的文件库中的某些网站,比如amazon,abebooks,barns&nobel, ebay之类的,
有关该方面的书的document返回。然后用html parser把我想要的内容保存下来。最后
根据我给定的ranking方法,把结果显示出来就行了。

【在 d********u 的大作中提到】
: 我靠,楼上几位的语文是在老挝学的吧?扯了半天连问题是什么都美搞懂居然就给方案
: 了,怪不得大妈最爱JAVA,狗都能用呀。
: 不过,你别说,有当A3的潜质.
:
: barns

avatar
d*k
29
搭楼的同学们堪忧,未看清题意 就提笔书写。
楼主也堪忧,既然在做search, 那就search一下 "google search api" 或 "bing
search api" 就有些结果。一定量以内是免费。
如果量大又要免费, 那就自己分析一下goolge/bing的页面怎么发http request去
search, 你照做就是.但是返回的结果是html,你得自己parse, 而且这个不是API,所以
syntax 随时可能变。还有可能有throttling.
avatar
i*i
30
google有api, 可以指定搜索的范围.自己看怎么收钱.
bing不清楚.
yahoo有yql.
avatar
g*g
31
ebay, amazon都是有WS API的。其他的不清楚。通常也就要个developer账户,有一些
限制。花点小钱就可以灵活准确的拿到需要的数据,web crawl都是没办法才做的,又
费力又不准确,一不小心还被封IP。数据还有延迟。
avatar
o*1
32
Google Web Search API说是deprecated了。然后google推荐用Custom search。见
https://developers.google.com/web-search/docs/
请问这两个有什么区别?用哪个好?

【在 d******k 的大作中提到】
: 搭楼的同学们堪忧,未看清题意 就提笔书写。
: 楼主也堪忧,既然在做search, 那就search一下 "google search api" 或 "bing
: search api" 就有些结果。一定量以内是免费。
: 如果量大又要免费, 那就自己分析一下goolge/bing的页面怎么发http request去
: search, 你照做就是.但是返回的结果是html,你得自己parse, 而且这个不是API,所以
: syntax 随时可能变。还有可能有throttling.

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。