Redian新闻
>
机器学习:单或双变量常用分析技巧

机器学习:单或双变量常用分析技巧

科技

你好,我是你们的老朋友,zhenguo!

在机器学习EDA阶段,变量分析及可视化是常做的事情,这篇文章总结变量分析中,最常使用的单变量,双变量分析以及可视化。

单变量分析

单变量分析是指分析单个变量对目标变量的影响。

例如,在预测房屋价格的模型中,单变量分析可以探究房屋面积对价格的影响。

单变量分析中,常用到boxplot图,用来显示一个变量的分布情况,并且常用于离散变量。

import matplotlib.pyplot as plt

# 准备数据
data = [0, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 5]

# 绘制盒须图
plt.boxplot(data)
plt.show()

双变量分析

双变量分析则是分析两个变量之间的关系。或者,两个变量联合对目标值的影响。

例如,在同样的房屋价格预测模型中,双变量分析可以探究房屋面积和房龄对价格的影响。

常用的分析技巧包括:

  • 散点图: 用来显示两个变量之间的关系,常用于连续变量
  • 回归分析: 用来确定两个变量之间的关系强度以及预测目标变量
  • 分类分析: 用来确定哪些变量最能预测目标变量属于哪一类

散点图确定两个变量之间的关系

下面是一个示例,展示了如何使用 matplotlib 绘制散点图:

import matplotlib.pyplot as plt

# 准备数据
x = [1, 2, 3, 4, 5]
y = [2, 5, 7, 9, 11]

# 绘制散点图
plt.scatter(x, y)
plt.show()

这段代码将会绘制一个显示 x 和 y 之间关系的散点图。

回归和分类分析

回归分析和分类分析可以使用 scikit-learn 库来实现。下面是一个例子,展示了如何使用 scikit-learn 进行线性回归分析:

from sklearn.linear_model import LinearRegression

# 准备数据
X = [[1], [2], [3], [4], [5]]
y = [2, 5, 7, 9, 11]

# 建立模型
model = LinearRegression()

# 训练模型
model.fit(X, y)


# 预测结果
print(model.predict([[6]]))

这段代码将会输出预测 x=6 时 y 的值。

下面是一个示例,展示了如何使用 scikit-learn 进行决策树分类分析

from sklearn.tree import DecisionTreeClassifier

# 准备数据
X = [[1, 2], [3, 4], [5, 6], [7, 8]]
y = [0, 0, 1, 1]

# 建立模型
model = DecisionTreeClassifier()

# 训练模型
model.fit(X, y)

# 预测结果
print(model.predict([[2, 3]]))

这段代码将会输出预测 x=[2, 3] 时 y 的类别。

以上就是理解单变量分析、双变量分析以及常用的分析技巧。

一起💪🏻

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
P,JHU,CalTech小藤属性,大藤脸面。UIUC信息学院汪浩瀚老师课题组招收全奖博士生及合作者,计算生物学和可信机器学习方向2月预告!商业分析、机器学习、数学建模训练营、量化金融项目实战下月开课!博士申请 | 帝国理工学院Stefan Vlask教授招收机器学习方向全奖博士生主攻静态代码分析技术,「蜚语安全」完成Pre-A轮融资|早起看早期【123期】分享你的学习:PBL项目学中文视听99篇《加泰罗尼亚音乐厅》又有券商董事长、总经理双双变动!开年已有10余家机器学习穷途末路?裁员潮下大厂员工艰难「求生」,知名教授:建议考公官宣!澳洲移民重大利好,政府全面简化PR手续,60万人“上岸”更容易!职业清单或将大改,一起看细则机器学习:处理缺失值方法总结东京在召唤15-神户见校友细胞培养避免支原体污染十大技巧&20分钟快检应用分享机器学习中的新数学,加速AI训练离不开数字表示方式和基本计算的变革超越核方法的量子机器学习,量子学习模型的统一框架CV发论文的机会来了!南洋理工项目招生(仅限深度学习,AI,机器学习,迁移学习方向)梳理机器学习常用算法(含深度学习)1月预告!数学建模、商业分析、量化金融、机器学习项目实战开课!重思贝叶斯学习:稀疏建模中先验与推断的艺术第二十四届脑电数据分析技术实战班(线上直播,2023.1.11-15)又走了一位老海归-唐有祺数学建模、商业分析、量化金融、机器学习背景提升项目实战1月安排!商业分析、机器学习、数学建模训练营、量化金融项目实战2月开课预告!主攻静态代码分析技术,「蜚语安全」完成Pre-A轮融资|36氪首发姜宏锋2023年跨年演讲:供需双变,回归降本增效,聚焦能力提升(精华笔记)马里兰大学助理教授陈一征招收机器学习及计算机安全方向博士生 | 2023 秋季预测 2022 年 FIFA 世界杯冠军大概率是荷兰!自制机器学习预测模型技术原理详解博士生申请 | 马里兰大学助理教授陈一征招收机器学习及计算机安全方向博士生 | 2023 秋季2008年,江泽民同志发表论文指出:发展智能化、机器学习会大有作为美中期选举:拜登川普较量 2.0博士后申请 | 西湖大学张岳课题组招收基础自然语言处理、机器翻译、机器学习等方向的博士后「简报」铭记受托人 Geln de Vries,为生命庆祝;机器学习模型课预测多发性硬化症患者在居家期间的健康状况​曝!中国造了双变态“丁腈”手套,解家务一难题,切不烂、砍不断,穿戴自如,能用一整年!春日宜学习:给Flag加个扶梯,让上楼成为可能 | 管理充电桩统计机器学习方法 for NLP:基于HMM的词性标注
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。