双非一本跨申热门数据分析,我成功发表国际一作论文,完成自我蜕变!
※ 本文系指南者留学学员原创,转载请联系授权
学员背景
C同学
双非一本 金融学
打算申请人资管理,商业分析,数据分析方向海外研究生
参与项目
指南者商业分析科研论文指导
选择背提的目的
大二的时候,我签约了指南者留学。由于准备时间较为充足,申请主导师就向我推荐了背景提升项目,以提升自身的软实力背景。
我的专业是金融学,但是我要申请的方向是人资管理/商业分析/数据分析,这些专业对编程语言和数据分析的经历都有一定的要求,比如需要掌握Python,R,SPSS等,跨专业申请还要求有相关的项目经验。而学校对商科所开设的数据分析课程都是很简单的课程,对实际工作没有太大帮助,所以一开始,我选择指南者留学的背景提升项目就是想提高Python数据分析的能力。
我在接触这个项目之前没有学过Python,就连Excel也不太会,英语能力也不是很强,所以很担心会完不成这个科研。甚至在学习过程中,有时也会对自己产生质疑,但做完了之后,我才发现科研其实并没有想象中那么难,而且还收获了很多知识。
项目具体学习
理论培训部分
首先,我对Python知识进行了初步学习,包括Python基础,NumPy库,pandas库,matplotlib库(数据可视化),数据清理和数据处理,特征工程(特征筛选,特征处理等),聚类,降维,还有回归模型,分类模型和stacking算法等机器学习和集成学习领域的知识。我之前从来没有接触过Python,一开始学的时候学得很投入,大约花了一周就学完了所有内容。
指南者老师录的课讲得非常清楚,脉络也很清晰。相较于网上几百集的python课程,我更偏好于指南者的课程:教给学生最核心的内容,然后再慢慢拓展,而且每节课课后都会有作业可以帮助理解内容和大致框架,做完作业之后也会有老师认真地给我批改和讲解,即使有不懂的点,在讲解过后也变得易懂了。此外,课程中基本没有刻意地去背知识或者记代码的部分。感觉最重要的还是“重复应用”和“练习”,反复训练就能够初步了解并熟悉框架。
在理论学习过程中,我的进展也比较顺利,所以很快就进行到了项目的实战阶段。
选题方向
我要申请的方向和人资管理还有数据分析都有关系,因此教授提出了一个叫做“基于面试者建立的薪资预测模型”的课题,和我要申请的方向非常符合。而且,李教授本身也是南洋理工大学商学院的教授,管理科学杂志审稿人,对此十分有经验。最终我们确定以此作为选题。
科研过程
在确定选题之后,李教授给我发了一个薪资数据集,逐步教我如何开始研究。每周末我都会和李教授、梅老师进行线上会议汇报工作,教授会给我一些指导,以及布置下一周的任务和方向。
平时,教授和梅老师会很耐心地回答我提出的问题,且不会直接给我答案,而是引导性地提出一些问题和思考,让我自己先去尝试和思考还有查询相关内容。
比如在学习如何把分类变量转化为虚拟变量时,老师们会让我自己先去查询和研究。还有在特征筛选的时候使用点二列相关算法,随机森林特征重要性等,老师不会直接告诉我结果,除非在我研究过后还是不懂,才会给我示范一遍,这使得我在做项目的过程中能够不断磨炼和提升自己的能力。
在科研过程中,我尝试用各种回归算法建立薪资预测模型,最后还用了stacking算法集成模型,将多个第一层回归模型的预测结果作为第二层模型(元模型)的输入值进行再次拟合,然后得到最后的回归预测结果,减小过拟合的风险。经过多次建模之后,我发现自己已经能显著地减少预测误差,建立出一个薪资预测模型。
李教授在授课中提到,我不仅需要关注最后的预测结果,还要增强数据叙事的能力。于是我用OLS线性回归得到了各个变量和薪资之间的相关系数以及p值,还有其他的一些数据,接着还进行了一些数据可视化展示,通过可视化进行分析。
论文写作与发表
完成科研实验之后,老师让我阅读了几篇英语论文,并给了我大概的论文写作框架以及侧重点。
我一开始挺害怕写全英论文的,但其实论文写作是整个科研过程中最简单的部分。本着循序渐进的想法,我首先完成了论文中介绍研究背景、数据集和理论基础的部分,然后写清楚研究的过程,包括数据清洗和数据预处理,特征工程,建模过程还有调参过程等等,最后列出对照组和实验组的结果,并总结出相关结论。
论文初稿完成后,老师会提出内容的修改意见,进行一些排版问题(如图表)的调整等。接下来老师会去选择相关的国际会议,并准备将论文投稿到国际会议上。
最后,我的论文被CPCI会议录用,并在会议上进行了英文汇报演讲。
自我提升与收获
完成背景提升项目后,我不仅收获到了教授的推荐信,还有独立一作+通讯的CPCI会议论文,也能够去进行数据清洗,预处理和可视化,很熟练地建立回归和分类模型解决实际问题等等。这意味着我已经可以比较熟练地进行数据分析了。
如果大家想要留学,建议在个人软背景方面提前做好准备,这样就可以在更充分的时间内提升自我。而且,接触科研对我们后期的科研打好基础很有帮助。我在那段时间学到的知识,在之后的学业过程、竞赛和实习中都可以应用到,也让我能更快地学习和理解新的Python知识。之后,我还自己发了两篇EI会议,并获得了安永数据科学挑战赛的全球前十,其中也用到了stacking算法。
到现在,我已经完成了从零到一的自我蜕变,从科研小白变得能够参加比赛、自己发表实习等等。这段经历教会了我一点:科研是件循序渐进的、持续提升的事。它既需要合适的领路人,也需要自身的努力和不断的试错。希望大家都能够达成理想中的目标,变成更好的自己!
扫描下方二维码
咨询报名科研项目
微信扫码关注该文公众号作者