Redian新闻
>
Pandas:用于数据分析和数据科学的最热门 Python 库 | Linux 中国

Pandas:用于数据分析和数据科学的最热门 Python 库 | Linux 中国

科技
 
导读:Pandas 是一个十分流行的 Python 第三方库。本文介绍了 Pandas 库中的一些特性和函数,并且我们鼓励读者亲手使用 Pandas 库,来解决实际的业务问题。
本文字数:3105,阅读时长大约:4分钟

Pandas 是一个十分流行的 Python 第三方库。本文介绍了 Pandas 库中的一些特性和函数,并且我们鼓励读者亲手使用 Pandas 库,来解决实际的业务问题。

Pandas 为 Python 中数据分析提供了基础和高级的构建组件。Pandas 库是用于数据分析与数据操作的最强大和最灵活的开源分析工具之一,并且它还提供了用于建模和操作表格数据(以行和列组织的数据)的数据结构

Pandas 库有两个主要的数据结构:第一个是 “系列(Series)”,该数据结构能够很方便地从 Python 数组或字典中按位置或指定的索引名称来检索数据;第二个是“数据帧(DataFrames)”,该数据结构将数据存储在行和列中。列可以通过列名访问,行通过索引访问。列可以有不同类型的数据,包括列表、字典、序列、数据帧、NumPy 数组等。

Pandas 库可以处理各种文件格式

有各种各样的文件格式。用于数据分析的工具必须能够提供处理各种文件格式的方法。

Pandas 可以读取各种文件格式,例如 CSV 文件、JSON 文件、XML 文件、Parquet 文件、SQL 文件,详见下表。

< 如显示不全,请左右滑动 >
 写入读取
CSV 文件to_csv 函数read_csv 函数
JSON 文件to_json 函数read_json 函数
Parquet 文件to_parquet 函数read_parquet 函数
SQL 文件to_sql 函数read_sql 函数,read_sql_query 函数,read_sql_table 函数
XML 文件to_xml 函数read_xml 函数

使用 Pandas 进行数据清理

在现实场景中,很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要对使数据分析更加准确,就需要对这些没有用的数据进行处理。此外,数据还会有需要 屏蔽(mask) 的敏感和机密信息。接下来,Pandas 提供了清理、丢弃、替换、屏蔽等方法,来处理这些坏数据。

Pandas 清洗空值:

a. 空行可以使用 df.dropna(inplace=True) 方法来删除。

b. 空值可以使用 df.fillna(<value>, inplace=True) 方法来替换。还可以指定某一个列来替换该列的空数据。

Pandas 屏蔽数据:

c. 要屏蔽所有不满足条件 my_list.where(my_list < 5) 的敏感数据的值,可以使用 my_list.mask(my_list < 5)

Pandas 清洗重复数据:

d. 要删除重复数据,可以使用 drop_duplicates() 方法:

  1. df.drop_duplicates(‘<column>’, keep = False)
  2. df.drop_duplicates(‘<column>’, keep = first’)
  3. df.drop_duplicates(‘<column>’, keep = last’)

使用 Pandas 进行数据分析

下面的表格列出了 Pandas 中进行数据分析的各种函数,以及其语法。(请注意:df 代表一个 数据帧(DataFrame) 数据结构的实例。)

< 如显示不全,请左右滑动 >
语法描述
df.head(x)head() 函数用于读取前面的 x 行,如果不填参数 x,默认返回 5 行
df.tail(x)tail() 函数用于读取尾部的 x 行,如果不填参数 x ,默认返回最后 5 行,空行各个字段的值返回 NaN
loc(x:y)Loc 函数返回指定行的数据,也可以对数据进行切片
groupby('<column>')对指定列的数据进行分组
df['column'].sum()计算指定列数据的总和
df['column']. mean()计算指定列数据的算术平均值
df['column'].min()计算指定列数据的最小值
df['column'].max()计算指定列数据的最大值
df.sort_values(['column'])在指定列上根据数值进行排序,默认升序
df.size返回元素的个数,即为行数 * 列数
df.describe返回对各列的统计汇总
pd.crosstab(df['column1'], df['column2'], margins = True)创建 column1 和 column2 的交叉表
df.duplicated([column1, 'column2'])根据 column1 和 column2 中的重复值,返回 True 或 False

Pandas 的优点

◈ 支持多索引(层次索引),方便分析多维数据。
◈ 支持数据透视表的创建,堆栈和取消堆栈操作。
◈ 可以使用 Pandas 处理有限值的分类数据。
◈ 支持分组和聚合运算。
◈ 可以禁用排序。
◈ 支持行级过滤(获取满足过滤条件的行)和列级过滤(只选择需要的列)。
◈ 有助于重塑数据集(数组的维度变换)。还可以转置数组的值,并转换为列表。当你使用 Python 处理数据时,可以将 Pandas 数据帧转换为多维 NumPy 数组。
◈ 支持面向标签的数据切片。

Pandas 的不足

Pandas 的代码和语法与 Python 不同,所以人们需要额外再学习 Pandas。此外,相较于 Pandas,像三维数据这样的高维数据会在 NumPy 等其他库有更好的处理。

总结

Pandas 能够大幅提升数据分析的效率。它与其他库的兼容性使它在其他 Python 库中都能有效地使用。


via: https://www.opensourceforu.com/2022/08/pandas-the-popular-python-library-for-data-analysis-and-data-science/

作者:Phani Kiran 选题:lkxed 译者:chai001125 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

LCTT 译者 :chai001125
🌟🌟🌟
翻译: 25.0 篇
|
贡献: 112 天
2022-10-06
2023-01-26
https://linux.cn/lctt/chai001125
欢迎遵照 CC-BY-SA 协议规定转载,
如需转载,请在文章下留言 “转载:公众号名称”,
我们将为您添加白名单,授权“转载文章时可以修改”。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
PyTorch 安装包出问题,官方警告:这些 Linux 用户请立即卸载,否则会遭数据泄漏硬核有奖问卷|你选择 JavaScript 还是 Python?下一个热门语言由你定义数据科学家的开源社区分析指南 | Linux 中国Artipie:可用于 Python 的开源仓库管理器 | Linux 中国双非申请热门商业分析、数据科学专业,如何提升背景?lnav: 用于 Linux 的高级日志文件浏览器 | Linux 中国求职干货 | 华为等企业2023秋招已开!海归求职:数据(数据分析、数据科学、工程)Live Captions:Linux 上的开源视频字幕应用 | Linux 中国求职干货|拼多多 2023秋招补录已开!海归求职:数据(数据分析、数据科学、工程)丢掉Excel,手把手教你用Python做可视化数据,还能任意调节动画丝滑度EndeavourOS:你对完美的 Arch 发行版的搜寻到此为止 | Linux 中国在 Linux 上试试这个基于 Python 的文件管理器 | Linux 中国运动的初衷天赋“易昺(bǐng)”,创造历史!为什么适用于Python的TensorFlow正在缓慢消亡Colorblind Filters:帮助色盲用户的 GNOME 扩展 | Linux 中国利用法律或者政策的犄角空间以达到利益最大化不是错,有时候需要学会这个本领。速领!哈佛学霸都在学的Python课程,3天即可掌握!如何在 Ubuntu 和其他 Linux 下安装 IDLE Python IDE | Linux 中国数据分析师,如何在数据分析的流程中提供更大的价值?Flathub 计划发展为通用的 Linux 应用商店 | Linux 中国PyTorch安装包出问题,官方警告:这些Linux用户请立即卸载,否则会遭数据泄漏如何在 Ubuntu 和 Fedora 中设置 Python 开发环境 | Linux 中国求职干货 | 拼多多 2023春招已开!海归求职:数据(数据分析、数据科学、工程)适用于 Linux 的五大流媒体直播应用 | Linux 中国大学申请和录取,应不应该有契约精神?NOKali Linux 推出用于防御性安全加固的 “Kali Purple” | Linux 中国世界上只有两个 Linux 发行版:Arch Linux 与其它 | Linux 中国Python 中的变量:概念与示例 | Linux 中国在美国314.华尔街、世贸中心、圣诞街景求职大视野 | 上交生物专业研究生,跨专业数据分析求职Happy Ending(网易云,拼多多,滴滴,贝壳找房)行业入门|量化分析,一个工作语言是Python和Chinese的行业[电脑] The Grand Beyond The Grand —— 华硕ROG HYPERION创世神 装机SHOW!第二次徒步圣路,750公里葡萄牙之路+英国之路:D07~圣塔伦城Endless OS 5.0:带有 Wayland 和丰富应用程序的最佳 GNOME 桌面 | Linux 中国
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。