Redian新闻
>
转行数据挖掘和机器学习
avatar
转行数据挖掘和机器学习# DataSciences - 数据科学
z*8
1
原文链接:
http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
来参考一下。大牛请忽视以下的内容,小白可以参考下。
从数学专业转行到工业界做数据挖掘需要的知识储备:
1. Hadoop,HIVE,SQL数据库操作。
Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用
熟悉了其实挺方便的。
2.编程语言
编程语言最好会python,c/c++,或者java,至少一种。做机器学习的话感觉用python
会多一些。
3.操作系统
Linux系统,脚本语言Shell。
4. 数据挖掘和机器学习的基础知识和算法
逻辑回归算法 Logistic Regression(LR),
支持向量机算法 Support Vector Machine(SVM),
物质扩散和热传导算法(Heat Spreading),
Gradient Boosting Decision Tree(GBDT),
聚类算法,神经网络算法,决策树,随机森林,异常值检测等常用算法需要掌握。
特征工程的基础知识:根据相应的产品进行必要的特征构造,物品特征,交叉特征等。
其中LR使用广泛:由于LR是使用线性方法来处理非线性的问题,导致特征工程十分复杂
,交叉项多(二维或者三维的交叉)。
工程上的最优化论文推荐:
Ad Click Prediction a View from the Trenches
需要了解的是相关论文的背景SGD算法,Truncated Gradient算法,RDA算法,FOBOS算
法,FTRL算法等。
5. 统计学:
时间序列模型,变量的相关系数,ROC曲线和AUC,交叉验证,主成分分析。
6. 大数据,推荐系统,计算广告学的科普书籍
avatar
p*e
2
确实是很有用的信息。看了这个list后,我有一个问题。要都准备这里所列举的东西
需要很长时间。比方说Python编程,要是考起算法的话得准备leecode。对于没有
CS背景的人时间不会很短。然后这里还有很多统计的知识。对于一般的数学系或者
是工程系的人来说并不是他们以前所学的内容。一般来说准备所有这些怎么也得有1
到2年左右的时间。请问这是不是意味着一般来说,我们需要很长的时间才能准备好。

【在 z****8 的大作中提到】
: 原文链接:
: http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
: 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
: 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
: 来参考一下。大牛请忽视以下的内容,小白可以参考下。
: 从数学专业转行到工业界做数据挖掘需要的知识储备:
: 1. Hadoop,HIVE,SQL数据库操作。
: Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
: 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
: EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用

avatar
a*a
3
非常好的文章,多谢多谢
若是英文就更好了,看中文好累,有些词汇反应不过来。

【在 z****8 的大作中提到】
: 原文链接:
: http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
: 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
: 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
: 来参考一下。大牛请忽视以下的内容,小白可以参考下。
: 从数学专业转行到工业界做数据挖掘需要的知识储备:
: 1. Hadoop,HIVE,SQL数据库操作。
: Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
: 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
: EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用

avatar
c*4
4
非常感谢分享
avatar
c*4
5
非常感谢分享
avatar
j*3
6
谢谢分享!
avatar
z*8
7
原文链接:
http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
来参考一下。大牛请忽视以下的内容,小白可以参考下。
从数学专业转行到工业界做数据挖掘需要的知识储备:
1. Hadoop,HIVE,SQL数据库操作。
Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用
熟悉了其实挺方便的。
2.编程语言
编程语言最好会python,c/c++,或者java,至少一种。做机器学习的话感觉用python
会多一些。
3.操作系统
Linux系统,脚本语言Shell。
4. 数据挖掘和机器学习的基础知识和算法
逻辑回归算法 Logistic Regression(LR),
支持向量机算法 Support Vector Machine(SVM),
物质扩散和热传导算法(Heat Spreading),
Gradient Boosting Decision Tree(GBDT),
聚类算法,神经网络算法,决策树,随机森林,异常值检测等常用算法需要掌握。
特征工程的基础知识:根据相应的产品进行必要的特征构造,物品特征,交叉特征等。
其中LR使用广泛:由于LR是使用线性方法来处理非线性的问题,导致特征工程十分复杂
,交叉项多(二维或者三维的交叉)。
工程上的最优化论文推荐:
Ad Click Prediction a View from the Trenches
需要了解的是相关论文的背景SGD算法,Truncated Gradient算法,RDA算法,FOBOS算
法,FTRL算法等。
5. 统计学:
时间序列模型,变量的相关系数,ROC曲线和AUC,交叉验证,主成分分析。
6. 大数据,推荐系统,计算广告学的科普书籍
avatar
p*e
8
确实是很有用的信息。看了这个list后,我有一个问题。要都准备这里所列举的东西
需要很长时间。比方说Python编程,要是考起算法的话得准备leecode。对于没有
CS背景的人时间不会很短。然后这里还有很多统计的知识。对于一般的数学系或者
是工程系的人来说并不是他们以前所学的内容。一般来说准备所有这些怎么也得有1
到2年左右的时间。请问这是不是意味着一般来说,我们需要很长的时间才能准备好。

【在 z****8 的大作中提到】
: 原文链接:
: http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
: 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
: 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
: 来参考一下。大牛请忽视以下的内容,小白可以参考下。
: 从数学专业转行到工业界做数据挖掘需要的知识储备:
: 1. Hadoop,HIVE,SQL数据库操作。
: Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
: 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
: EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用

avatar
a*a
9
非常好的文章,多谢多谢
若是英文就更好了,看中文好累,有些词汇反应不过来。

【在 z****8 的大作中提到】
: 原文链接:
: http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
: 半年前从数学专业转行到了互联网行业做数据挖掘和推荐系统,在做具体的业务的时候
: 遇到了一些知识点,于是自己整理出来。如果有后来人需要转行的话,可以用这份资料
: 来参考一下。大牛请忽视以下的内容,小白可以参考下。
: 从数学专业转行到工业界做数据挖掘需要的知识储备:
: 1. Hadoop,HIVE,SQL数据库操作。
: Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,
: 字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。
: EXCEL的基本操作需要掌握,可以进行各种数据的处理、统计分析和辅助决策操作,用

avatar
c*4
10
非常感谢分享
avatar
c*4
11
非常感谢分享
avatar
j*3
12
谢谢分享!
avatar
z*8
13
确实需要一定的时间,不过可以一边看书,一边寻找实习机会,在工作中结合业务学习
会快很多。

【在 p******e 的大作中提到】
: 确实是很有用的信息。看了这个list后,我有一个问题。要都准备这里所列举的东西
: 需要很长时间。比方说Python编程,要是考起算法的话得准备leecode。对于没有
: CS背景的人时间不会很短。然后这里还有很多统计的知识。对于一般的数学系或者
: 是工程系的人来说并不是他们以前所学的内容。一般来说准备所有这些怎么也得有1
: 到2年左右的时间。请问这是不是意味着一般来说,我们需要很长的时间才能准备好。

avatar
t*g
14
这个list比较适合做计算广告相关的ds。
avatar
z*8
15
确实是ds。。。。

【在 t******g 的大作中提到】
: 这个list比较适合做计算广告相关的ds。
avatar
c*n
16
大家好!本人建了个qq群供数据科学爱好者互动交流,目前群内已召集800多位行业工作
者,相关企业HR和数据科学爱好者!主要供大数据、数学,算法、数据挖掘、机器学习
,数据可视化,数据仓库、商业智能、软件编程等方面爱好者交流。群里既谈数据科学
,也分享人生喜悦,大家互相帮助,长期寻求数据科学达人加入。感兴趣的朋友可以加
qq群,链接是【数据家-交流群】:http://jq.qq.com/?_wv=1027&k=hxebyg 或者搜索群号482167413 感谢mitbbs数据科学版提供平台!
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。