Redian新闻
>
GPA 81,我选择“大数据分析+机器学习”项目提升背景!

GPA 81,我选择“大数据分析+机器学习”项目提升背景!

公众号新闻
※ 本文为指南者留学学员原创,转载请联系授权

学员背景
W同学
本科背景
南京理工大学 通信工程
GPA 81.2
背提项目
指南者留学机器学习项目实战
汇丰银行外币理财用户购买意愿预测


01

契机背景


我是一名大四的本科生,在大三升大四的暑假参加了指南者留学的机器学习背景提升项目,主要内容是汇丰银行外币理财用户购买意愿预测。

首先,我想谈一谈为什么选择指南者的背景提升项目。

在大学前三年的学习中,作为电子信息类专业的学生,除了需要接触大量的与电子学科相关理论,编程能力也是很重要的一部分,谁能够将器件的理论知识与编程代码相结合,谁就能在短时间内实现器件功能的设计,并且相较于一些传统的电子设计软件,通过编程设计出来的器件能够更好的实现功能的多样性和创新性。譬如在一个传统芯片的设计中,可能添加一个功能就需要在版图上进行全部芯线的重新连接和绘制,但在数字化的芯片设计中只需要添加或修改其中的一部分代码。

其次,是为了个人能力的进一步提升。在本科的学习过程中,我从未接触过python这类语言,也未参与过机器学习相关的课程,但python无疑是当下最热门的计算机语言之一,“大数据分析+机器学习”的模式也无疑是当下最热门的项目之一。我希望能通过我的个人能力,对某类数据集实现从无到有、从复杂到简单的分析过程,能够从单一的数字中挖掘出有用的信息。这对我来说是一个全新的项目和挑战,而指南者的背提项目恰好给予了我这一机会。

最后一条是为了弥补自己在留学申请时科研项目上的空缺。在大学阶段我虽然完成了不少实验和课程设计,但所接触的科研经历总体较少,而在院校申请时科研项目经历又是很被看重的一方面,因此这一机会成为了我背景提升的“救命稻草”。



02

项目过程及收获


主要的项目过程是首先通过老师的课程学习相关的基础知识,譬如科研项目的一般流程、机器学习的项目简介、Numpy库、Matplotlib库、Pandas库、数据清洗的一般方法、回归模型、分类模型、评价指标等。每一次课程都会对应着相关的作业(主要是对老师给的题目进行编程并写一份简单的报告),之后老师会集中几次作业的情况对我的作业进行单独讲解,这个过程大约持续了3~4周。这些作业内容帮助我很好地理解了课程的相关内容,并进一步加深了对python编程的理解。


完成了上述课程的学习之后就进入了具体的项目实战。我的项目内容主要是结合汇丰银行以往的用户购买外汇理财产品的数据以及用户本身的信息(如住房情况、信贷状况、家庭背景、工作信息等)来进行有效特征的筛选,也就是从其中挑选出对购买理财产品影响因子较大的因素放入最终的模型,而无关的因素则可以删去,并且通过用户自身信息与过往金融行为来搭建购买意愿预测系统,提高最终预测模型的效率。

首先需要在数据预处理中进行了缺失值填补、独热编码等步骤,并进行了朴素的过采样处理保证数据集的平衡性。在数据处理的第一步我就碰到了问题,但我的指导老师梅老师一直对我的每次问题进行了详细的解答,为我省去了很多不必要的麻烦。


在进行模型搭建之前先对数据进行一定的清洗,毕竟在以后面对实际的数据集时,不可能得到一个完完整整的数据库,因此数据清洗是必要的,以某数据集为例统计可得到该数据集共有19439行损失,64列损失。查看每列数据的缺失值比例,其中部分结果如下:


从中可以看出,该数据集中有大量的缺失值,出于下一步模型的需要因此不能进行简单的删除,对此我使用Imputer进行了缺失值填补等数据预处理步骤。

同时,在该数据集中有几个特征是无序的分类特征。为了处理这一问题,我进行了独热编码等步骤,即为每一个无序分类特征的每一个可能的类别创建一个“虚拟”变量。经过以上处理之后数据集就显得有序了许多,于是就开始进行下面的步骤。

在特征抽取步骤中,我使用了GBDT和PCA的方法进行,两种方法各有优点和缺点,我都进行了尝试并对相应的结果进行了对比。在本项目中的PCA降维中,可以绘制出n_components与cum_explained_variance_ratio对应的图像曲线如下,最终选择n=20作为新生成的特征个数。


最终结合了测试集上的指标以及模型的运算量大小等综合因素,本项目采用PCA的特征抽取方法。

在特征过滤中主要选择了方差选择法、递归特征消除法和基于惩罚项的特征选择法,并对原理和结果进行了说明。最后利用不同的机器学习算法分别进行交叉验证和网格搜索确定模型的参数(如:n_estimators、max_depth等)并对该数据集进行预测,例如随机森林、逻辑回归、stacking集成等,最后通过AUC和ROC等评价指标的对比分析确定最佳模型,即随机森林模型可以对银行外币理财用户购买意愿起到比较好的预测效果。该系统还可以通过数据来对用户的购买意愿进行判断,并且提供意愿排名,来更为精准的找到意愿强烈的客户提高产品的购买率。


我的最终报告部分展示)


03

收获与感悟


最后我还想谈一谈我在这一过程中的收获。

首先是指南者的背景提升项目让我更加清楚了自身的兴趣和学习的意义,书本上的理论知识虽然是枯燥的但也是必备的,如何将这些理论知识运用到实践中去并取得真正有意义的成果才是最重要的,而成果是否有意义的重要衡量标准之一就是是否能解决实际问题,本次的背提项目让我看到了知识与实践融合的魅力。

第二是让我在留学申请中提升了自己的竞争力,对于科研小白的我来说,这无疑是我的申请简历中浓墨重彩的一笔,该项目不仅是对我个人能力的证明,也能够帮助申请院校的老师们进一步了解我。

第三是提高了我对新事物的接受能力,从接触一门全新的编程语言到能够最终完成该项目,这对我来说是一次挑战也是一次飞跃,这让我对接下来的学习生活更有自信。



扫描下方二维码
咨询同款项目实战经历

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
南洋理工计算机视觉科研项目招生(仅限机器学习,深度学习,AI,迁移学习方向)福利!纽约这个“大学选择”项目将帮助寄养孩子进入梦想大学! 每年支付1.5万元学费求职干货 | 华为等企业2023秋招已开!海归求职:数据(数据分析、数据科学、工程)大数据分析女博士狂吻老院士:是时候对“学术妲己”进行祛魅了求职干货 | 华为、DELL等2023秋招已开!海归求职:数据(数据分析、数据科学、工程)大数据技术演进实录:云原生大数据、湖仓一体、AI for Data,未来“谁主沉浮”?| Q推荐深度解读 | 机器学习和深度学习的区别到底是什么?买房风波(全文完)美国申请| 对未来学习方向不明确,申请时选择“不定专业”可以吗?2022年二季度美国基金市场大数据分析“我们的祖先到底是谁?为何智人胜出?”丨2022诺奖深入回答了这些问题。附Svante Pääbo趣闻近百个大数据开源项目,你该如何选型?|《开源大数据热力报告2022》入围项目公示中移智库&梧桐大数据:2022中国青年大数据洞察报告远瞩咨询:2022年全球人工智能机器学习细分市场分析求职干货|Amazon 2023 暑期实习已开!海外求职:数据(数据分析、数据科学、工程)​自然语言处理 · 机器学习 · 深度学习PD-L1/PD-1研究2022丨诺奖加持,论文和基金均火箭速度增长;成果及转化正在其时!大数据分析及19篇论文帮你理清思路带女儿看完「学习困难门诊」后,我选择躺平了互联网大厂|字节跳动 大数据开发实习生正在招聘中!有大数据处理经验者优先慈济厨房的老师们双非申请热门商业分析、数据科学专业,如何提升背景?十几个项目提交AMC评审中 中南建设在“困局中求生”量化金融、机器学习项目实战开课!11月预告!数学建模训练营、商业分析、机器学习项目实战下月开课!医学生自学机器学习,利用GPT-3开发写作助手,收入月月翻倍,项目被收购后成人生赢家全国首发!周志华教授领衔撰写《大数据分析研究进展》古人类DNA与重症新冠有关?2022诺奖得主Pääbo,竟是前诺奖得主私生子博士后申请 | 西湖大学张岳课题组招收基础自然语言处理、机器翻译、机器学习等方向的博士后女儿就是一只现金焚烧炉!10月下预告!机器学习、量化金融背景提升项目实战开课!本月预告!数学建模训练营、商业分析、机器学习背景提升项目实战开课!婚礼现场,那个当众悔婚的男人铜死亡研究2022丨研究论文大爆发,这15篇论文及大数据分析帮你理清研究思路滞留香港,回不去的内地LAG-3研究-2022丨癌症免疫治疗研究突飞猛进,自身免疫性疾病、感染性疾病等获新突破;大数据分析帮你找到最佳切入点
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。