d*a
2 楼
尤其在金银满罐时。
z*e
3 楼
未必对统计要求高
但是你要知道怎么用统计上的那些知识
知道线性代数怎么用来做搜索
相似度理论,如何做群这些
严格说来这些是统计,也不是统计
可以说是统计跟cs结合的一个领域吧
另外我个人觉得big data离真正创造价值还有很长的路要走
前一段狂热有些hype的味道,我不认为把鸡蛋放在这一个篮子里是啥好事
你应该同时也考虑一下其他职位,比如开发岗
但是你要知道怎么用统计上的那些知识
知道线性代数怎么用来做搜索
相似度理论,如何做群这些
严格说来这些是统计,也不是统计
可以说是统计跟cs结合的一个领域吧
另外我个人觉得big data离真正创造价值还有很长的路要走
前一段狂热有些hype的味道,我不认为把鸡蛋放在这一个篮子里是啥好事
你应该同时也考虑一下其他职位,比如开发岗
a*8
4 楼
今天REE没忍住,早泄了。
m*u
7 楼
big data就是要会吹牛,说你刷试管的时候用了big data处理几万billion分子的数据
a*3
17 楼
data engineers 主要涵盖大数据系统的维护和开发, 比如: hadoop, Spark, storm,
等等,以及基于这些系统之上的 ETL pipeline,主要的活是编程 + 分布式系统设计
。
data scientists 利用上述大数据平台来获取和分析数据。简单的任务比如,运行一个
SQL 语句来拿一些数据; 复杂的任务比如,建立模型来预测用户行为。一般用 SQL,
python, R 等等。
小部分牛逼的data engineers / data scientists 研究如何在大数据平台上实现高效
data mining / machine learning 算法。
等等,以及基于这些系统之上的 ETL pipeline,主要的活是编程 + 分布式系统设计
。
data scientists 利用上述大数据平台来获取和分析数据。简单的任务比如,运行一个
SQL 语句来拿一些数据; 复杂的任务比如,建立模型来预测用户行为。一般用 SQL,
python, R 等等。
小部分牛逼的data engineers / data scientists 研究如何在大数据平台上实现高效
data mining / machine learning 算法。
l*e
19 楼
听起来data engineer更接近CS,
而data scientist更接近统计。
能不能这么理解,
就是找data scientist工作对统计要求更高,
但是想要在大数据平台上玩得好,
统计和编程要求都很高。
storm,
【在 a******3 的大作中提到】
: data engineers 主要涵盖大数据系统的维护和开发, 比如: hadoop, Spark, storm,
: 等等,以及基于这些系统之上的 ETL pipeline,主要的活是编程 + 分布式系统设计
: 。
: data scientists 利用上述大数据平台来获取和分析数据。简单的任务比如,运行一个
: SQL 语句来拿一些数据; 复杂的任务比如,建立模型来预测用户行为。一般用 SQL,
: python, R 等等。
: 小部分牛逼的data engineers / data scientists 研究如何在大数据平台上实现高效
: data mining / machine learning 算法。
而data scientist更接近统计。
能不能这么理解,
就是找data scientist工作对统计要求更高,
但是想要在大数据平台上玩得好,
统计和编程要求都很高。
storm,
【在 a******3 的大作中提到】
: data engineers 主要涵盖大数据系统的维护和开发, 比如: hadoop, Spark, storm,
: 等等,以及基于这些系统之上的 ETL pipeline,主要的活是编程 + 分布式系统设计
: 。
: data scientists 利用上述大数据平台来获取和分析数据。简单的任务比如,运行一个
: SQL 语句来拿一些数据; 复杂的任务比如,建立模型来预测用户行为。一般用 SQL,
: python, R 等等。
: 小部分牛逼的data engineers / data scientists 研究如何在大数据平台上实现高效
: data mining / machine learning 算法。
z*e
23 楼
相似度理论应该是big data的基石
基于txt的相似,搞出声音和图像的相似
这是人类认知的第一步,现在就在教电脑怎么认知这个世界
然后电脑才能想办法思考,人如果没有文字这些就无法思考
所以这个叫做ml
big data最大的问题在于数据的无规则化
而无规则的数据要从中找出相似的是非常有挑战性的
这就需要用到数学和各种统计了
这个才是big data进而ml那些东东
当然这个有些偏理论化了,应用的话,可以直接用来预测
比如搜索引擎预测哪些文件是你需要的
但是预测这个,其实不是big data真正关心的
在data warehousing时代就有这些东西了
包括什么etl这些,其实都是数据仓库的东东
十年前就有了,跟现在搞的这些不完全是一回事
当然他们也说自己搞的是big data就是了
毕竟是buzz words嘛,写在resume上也好看点
基于txt的相似,搞出声音和图像的相似
这是人类认知的第一步,现在就在教电脑怎么认知这个世界
然后电脑才能想办法思考,人如果没有文字这些就无法思考
所以这个叫做ml
big data最大的问题在于数据的无规则化
而无规则的数据要从中找出相似的是非常有挑战性的
这就需要用到数学和各种统计了
这个才是big data进而ml那些东东
当然这个有些偏理论化了,应用的话,可以直接用来预测
比如搜索引擎预测哪些文件是你需要的
但是预测这个,其实不是big data真正关心的
在data warehousing时代就有这些东西了
包括什么etl这些,其实都是数据仓库的东东
十年前就有了,跟现在搞的这些不完全是一回事
当然他们也说自己搞的是big data就是了
毕竟是buzz words嘛,写在resume上也好看点
t*n
25 楼
多谢蜥蜴高论
相关阅读