入门数据科学,请一定逼自己看完这四本书
Offer帮官网:offerbang.io
毫无疑问,数据科学是当今最热门的职业选择之一。许多公司(其中许多都有数据科学部门)都在招聘数据科学家,成为一名数据科学家是一件相当重要的事情。如果你想要跨入这个行列,这四本书是最好的教材。
An Introduction to Statistical Learning
这本书基于“统计学习”的概念,是统计和机器学习的结合。全书没有复杂的推导和公式,更多的是从实用性和解释性入手介绍各种经典机器学习模型以及R语言的实现。它让人难以理解的概念——“交叉验证”、“逻辑回归”、“支持向量机“变得很容易理解了,非常适合没有机器学习基础的小白入门。
The Elements of Statistical Learning
本书是 Introduction to Statistical Learning 的姐妹篇,是斯坦福统计系Stats 315a, Stats 315b Statistical Learning的教材,被业内奉为统计机器学习的圣经。纵观全书,应用最多的数学是微积分(数学分析)、线性代数(矩阵论)、概率论以及数理统计(包括回归分析、多元统计分析)等等,有很多的数学原理推导,极力推荐给想深入了解原理的同学。
Computer Age Statistical Inference
本书是统计三大分支Bayesian,Frequentist,Fisherian的一次大融合,并且把融合的背景定义为大数据、机器学习、 数据科学这些计算机时代迸发的基础。从古典时代的数理统计到21世纪大热的集成模型、神经网络等计算统计学,展现的是近一个世纪统计学理论发展的恢弘历史。这本书重点论述统计学思想的发展要有一定数学基础。
Pattern Recognition and Machine Learning
这本书绝对是机器学习领域贝叶斯视角的经典之作。原理讲解非常深入浅出,每一个细节推导得都非常详细,但需要具备机器学习和概率统计以及矩阵论的相关基础。
如果看书不好理解,或者学习效率比较慢,也可以在网上找一些视频课程学习,看着老师操作来学习要点,再做一些实战项目,事半功倍。
01
学好数据科学,可以求职哪些岗位?
想要学习数据科学技能的学生和职场小白,往往因为不了解行业信息、对未来的就业方向模糊不清而感到迷茫。
对数据科学家的定义不是特别的清晰,有的人叫Quantitative Researcher,绝大多数是Data Analyst,还有些会更偏向于Consultant,也有一些其实就是SDE,这些其实都需要用到数据科学。
除了名称就是Data Scientist的职位,如果你拥有数据科学的相关技能,还可以在哪些岗位就业?
咨询公司
其实,数据科学方向毕业的留学生,最适合的岗位是咨询公司。在咨询公做数据科学家,或者偏向Tech的咨询顾问是十分不错的选择。数据科学方向毕业的留学生有很强的沟通能力,懂得如何展现自己的专业水平,这使得他们去咨询公司就业简直如鱼得水。
与很多科技公司不同的是,在咨询的一个项目中,项目管理占比达到50~80%,而技术开发仅仅只占20~50%。咨询公司的终极技能是维护好客户,改善客户的管理方式,为他带来更多的利益,并不是你的模型多厉害客户就多喜欢。
在咨询公司做数据科学家,就需要花费大量的精力去理解客户的业务流程,然后整理好利用数据科学取得的投资回报率,进行数据分析,向客户展示怎样利用大数据管理进行改善,以及怎样产生盈利的商业模式。
互联网和科技公司
到互联网和科技公司就业,也有很多数据科学相关职位。如果你的编程能力很强,你就可以直接申请软件工程师。但如果你编程能力稍微弱一些,希望自己的工作内容中多一些机器学习和建模,Data Scientist这个岗位很适合你。
需要强调的是,大部分的互联网和科技公司的Data Scientist岗位,会更加偏爱博士生,如果你只是硕士生面试的时候可能会遇到一些困难。
如果你想接触更多的业务,你可以选择Data Analyst或者Product Analyst,在Amazon这个岗位又叫Business Intelligence Engineer,这是一个科技公司中分析产品分析市场的岗位,SQL用得比较多。或者你也可以选择当一个产品经理。
金融公司
作为数据科学的先驱之一,金融业利用大数据来改变一切,从股市运作方式,到检测欺诈,到改善客户体验等等。大数据带来的一系列应用让金融领域出现了对数据科学家的巨大需求。
金融数据科学家的工作涉及面非常广阔,从欺诈检测,到创建个性化客户服务解决方案等。这就意味着,需要构建复杂的数据仓库或创建算法,实现重要财务的自动化交互,这也促使金融数据科学家具备广泛多样的职业发展潜力。可以选择Quantitative Researcher,Data Scientist,或者Quantitative Trader。
02
面试考察什么?
数据科学面试的考察一般包括三种能力,即编程能力Coding Skill,理论理解Theoritical Understanding,业务结合Business Interpretation,具体是怎么考察的呢?
单类面试题
纯算法题:这一类Coding题型被单纯考察的几率并不大,因为数据科学家一般不需要写Production-Level Code,但是如果你时间充裕,可以充分准备一下。大家可以通过Leetcode进行学习,上面有很多类似的题型。
请你编写一个程序,判断字符串a是否是字符串b的子串,并分析时空复杂度。
纯理论题:一般面试官会在面试当中直接提问,需要当场作答。这一类题目又可以分为两种,一种考察你的知识广度,你需要在短时间内回答很多问题:
Xgb和Random Forest什么区别?(来源:Point 72)
Exploration和Exploit的区别?(来源:Amazon)
Variance和MSE和Bias三者的区别?(来源:Amazon)
一般来说Dropout Rate如何选择?(来源:Citadel)
另一种考察你的知识深度,做好面试官会把每个细节都问清楚的准备:
现在请你用45分钟的时间板书,介绍SVM和EM算法的原理和计算。
混合面试题
80% 理论+20% 算法:
请你写一个实现Knn算法的函数(只能用Numpy)。(来源: TripAdvisor)
50% 算法+50% 业务:一般考察业务理解和对应的实现能力。面试官会向你描述一个业务情景,然后让你写SQL或者Pandas代码,去分析解答一些简单的问题。
Facebook在研究朋友人数和User Engagement之间的联系(这是一个大的背景),其中的一个小步骤是让你写SQL代码来统计数据集中互为好友的人互相点赞的次数。
50% 理论+50% 业务:同样会给你描述一个业务场景,但是面试官主要想了解的是你的分析思路,尤其是你对错误的判断。
Uber的某一个算法,放进Production以后比Out-of-sample Test的时候效果差了很多。可能有哪些潜在的原因?如何排查?
这么多面试种类,我们可能会在选择学习方法上无所适从,这也往往是因为我们接触了太多的信息。与其花更多的时间去思考如何获取学习数据科学的技能,不如根据实际需要规划求职路线,然后开始学习。
如果你对数据科学相关知识还不了解,想迅速掌握核心技能,拥有名企实战项目经历丰富简历,或者想深度提升数据科学面试技能,可以扫描下方👇课程链接了解课程详情。或者直接添加🔍课程顾问微信 免费试听或咨询优惠。
课程顾问
课程顾问|James
免费试听|咨询课程优惠
我们的学员们已成功斩获金融、咨询、数据等多个领域的Offer。能展示出的Offer只是冰山一角,这一份份实打实、沉甸甸的Offer,让我们团队的每一个人都倍感自豪。在未来的道路上,Offer帮会继续脚踏实地,用专业、诚信、用心的原则,助力所有学员的求职之路!
微信扫码关注该文公众号作者