Redian新闻
>
有了这个库,这些爬虫都不用亲自写了!

有了这个库,这些爬虫都不用亲自写了!

公众号新闻
想必大家平时可能会做一些数据分析,那么数据分析肯定就少不了数据。

数据从哪里来呢?我们可以通过网络爬虫来爬取数据,但是这个还是需要耗费一定时间的。

这时候就会有朋友说了,有没有现成的数据呢?当然有了,今天就给大家分享一个基于 Python 的、简便易用的数据接口,可能包含我们想要的各种各样的数据。

简介

这个库的名字叫 GoPUP,GitHub 主页是:https://github.com/justinzm/gopup

这其实是一个基于公开 API 的数据接口库,这个库封装了各种各样的方法,比如通过 wx_hot_list 这个方法我们就可以获取实时的微信热门文章榜单。

基本使用

下面我们来简单介绍下它的使用方法,首先是安装,使用 pip3 即可:

pip3 install gopup

因为这个库会不断升级,如果要升级的话大家可以运行如下命令:

pip3 install -U gopup

安装完毕之后就可以开始使用了,其实使用起来还是非常简单的。

比如这里我们以「微博指数」为例来说明下用法,官方文档见 http://doc.gopup.cn/#/data/index_data?id=微博指数数据

  • 接口: weibo_index

  • 目标地址: https://data.weibo.com/index/newindex

  • 描述: 获取指定 词语 的微博指数

  • 输入参数

名称类型必须描述
wordstrY关键词
time_typestrYtime_type="1hour"; 1hour, 1day, 1month, 3month 选其一.
  • 输出参数
名称类型默认显示描述
datedatetimeY日期-索引
indexfloatY指数

大家可以看到,这个接口的目标地址实际上就是一个公开 API,然后我们只需要输入对应的词语和时间段,就可以输出对应的指数结果。

接口用法如下:

import gopup as gp
df_index = gp.weibo_index(word="疫情", time_type="3month")
print(df_index)

这里我们先导入了 gopup 库,然后调用了它的 weibo_index 方法,传入关键词和时间段,这里我们查询的是最近三个月的疫情对应的微博指数,也就对应这个词在微博的热度。

运行结果如下:

                 疫情
index              
2022-07-04  1518338
2022-07-05  1950590
2022-07-06  1924655
2022-07-07  1825620
2022-07-08  1768546
...             ...
2022-09-30  2083183
2022-10-01  1365015
2022-10-02  1498437
2022-10-03  1323310
2022-10-04  1244449

[93 rows x 1 columns]

可以看到输出的实际上是 Pandas 的 DataFrame 数据结构,如果我们用 Jupyter 运行的话可能更直观一些。

安装并运行 Jupyter

pip3 install jupyter
jupyter notebook

运行类似的代码,结果如下:

我们还可以进一步将其转化为可视化图表:

import matplotlib.pyplot as plt

plt.figure(figsize=(155))
plt.title("微博「疫情」热度走势图")
plt.xlabel("时间")
plt.ylabel("指数")
plt.plot(df_index.index, df_index['疫情'], '-', label="指数")
plt.legend()
plt.grid()
plt.show()

结果如下:

这样通过简单的几行代码我们就可以轻松将某个词的热度走势可视化出来了,绘制成折线图之后,热度走势一目了然。

更多数据

当然上面仅仅是冰山一角,GoPUP 集成了各种公开 API,就像个爬虫一样给各种 API 提供了封装,数据可谓是应有尽有。

根据 GoPUP 的简介,这里面的数据包括这些类别:

  • 指数数据:微博指数数据,百度指数数据,百度搜索数据,百度资讯指数,百度媒体指数,百度需求图谱,百度人群画像年龄分布,百度人群画像性别分布,百度人群画像兴趣分布;

  • 算数数据:算数指数数据,算数相关性分析,算数地域分析,算数城市分析,算数年龄分析,算数性别分析,算数用户阅读兴趣分类,谷歌指数数据,谷歌指数数据,谷歌事实查证;

  • 宏观数据:中国宏观数据,中国宏观杠杆率数据,货币汇率数据;

  • 利率数据:Shibor数据,Shibor报价数据,Shibor均值数据,LPR数据;

  • 公司数据:千里马公司,独角兽公司,倒闭公司,商业特许经营公司;

  • 信息数据:新闻联播文字稿;

  • 生活数据:中国油价数据,汽柴油历史调价信息,调价日的地区油价历史数据;

  • 诗词数据:唐代诗人,唐诗数据;

  • 影视数据:实时电影票房数据,单日电影票房数据,单日影院票房数据,实时电视剧播映指数,实时综艺播映指数,艺人商业价值,艺人流量价值;

  • 全国高校数据:全国普通高等学校名单,全国成人高等学校名单,全国高等学校详情数据;

  • 疫情数据:网易疫情数据,丁香园疫情数据……

当然这个库也在不断更新,更多详细的内容大家可以到官方文档了解下:http://doc.gopup.cn/#/README

有了这些数据,我们做数据分析和可视化就不用再去写爬虫啦,直接拿来用就好了,简直不要太方便!

好了,关于 GoPUP 就介绍这么多了,大家可以来试试看吧~

- EOF -



推荐阅读  点击标题可跳转

0、极客专属:几十款程序员秒懂的卫衣

1、会画色图的 AI,为什么无法领悟色色的真谛

2、假如我是核酸系统架构师,我会...

3、Linux 性能分析工具汇总


关注「程序员的那些事」加星标,不错过圈内事

点赞和在看就是最大的支持❤️

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
终于有救了!有了这个神器,海量文献轻松变成发表级综述!穿了这套保暖衣,保暖效果好到不像话,连毛衣都不用穿了!佩服!学姐2天搞定综述,有了这个神器再也不会被导师锤了!有了这些,我觉得我又行了!好强的谷歌“Excel”,不用自己写代码就能爬虫,网友立马cue微软:慌不慌?有了这个洁厕灵,我终于不用天天刷马桶了丨开团越按越上头,有了这个按摩颈枕按摩师傅都要失业了GPA3.9!只因简历少写了这行字,我被五大行拉黑了…爬虫商业模式的落幕?领英赢得其与hiQ的诉讼!附判决书全文[攻略]“白菜价”自驾班夫、贾斯伯!小编用亲身经历告诉你:到底值不值?有了这些闪闪亮亮的首饰,年末派对你就是全场焦点!书友的书丨 够生猛、够犀利,这个99年新人作家也太敢写了!【万圣节主题小零食】白色恋人万圣限定礼盒,大白兔新款奶球,酸味爬虫软糖,女巫手指饼干!有了这些好物,家政公司再也赚不到我的钱了!省亿点点~急症室故事6: 那些不作不死的人唐朝人亲自写下的诡事录,脑洞有多大?Tibet was peacefully liberated片单 | 有了这些作品,中国电影又行了!GPA3.9!只因简历少写了这行字,我被投行拉黑了…避雷!我被梦校秒拒,只因在文书写了这些…有了这个洁厕灵,我终于不用天天刷马桶了(明10点开团)GPA3.9!只因简历少写了这行字,我被高盛拉黑了…量子纠缠,来自X星球的男朋友鹅乌最新:有了这个,乌克兰可以轻松获胜有了这个“外骨骼”,体态好了,脖子不痛了,还能随时随地做颈椎艾灸有了这个大单,朔尔茨不虚此行盼着二十大赶紧开,但会有变数吗?有了这个抗衰护肤新法宝,你就是圣诞party最靓的那一位!2条都不想写了。有了这个“补铁冠军”,再也不愁宝宝贫血!既营养又好下饭,吃过一次就忘不了!安省的食用蘑菇与毒菇(第一集)自动出题、批改不费妈,200万+口算题库,这个“数学神器”绝了呀!划重点!防控措施有了这些新优化→几个小时VS二十秒!有了这个“黑科技”,躺平不香吗?家里没有英语环境,有了这个神器,照样带娃高效双语启蒙,老人也能轻松操作
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。