Redian新闻
>
讨论,(Big)Data Engineer到底是个什么职位
avatar
讨论,(Big)Data Engineer到底是个什么职位# DataSciences - 数据科学
x*o
1
讨论下, 这个算说的靠谱吗?
----------------------------------------------
(Big)Data Engineer(更偏计算机应用)是一个最近比较流行的职位, 其有部分类
似于但又不完全类同于Data Scientist (更偏统计模型)也不同于以往BI Engineer/
developer。
一般市场对Data Engineer的要求是,
1, Good work experience in using SQL and databases in a business
environment.
熟知数据库技术
2, Strong experience in Data Warehouse and Business Intelligence
application development
深刻理解数据仓库/商务智能应用开发
3, Experience with scripting languages, i.e. Perl, Python etc. preferred
掌握一门语言, 一般推荐学习Python
4, Evaluate and implement various big-data technologies and solutions (Hive
/EMR, Tez, Spark) to optimize processing of extremely large datasets in an
accurate and timely fashion.
大数据的知识(Spark, HIVE, PIG…)
5, Other soft skills
简单归纳, 从以上要求来看, Data Engineer其实就是一个传统的数据库/BI开发人员
+Python+Big Data
原文, http://tinyurl.com/gwjvau9/ct-videos/data-engineer/
avatar
M*0
2
基本差不多 但是具体工作差异很大
尤其big data engineer 要看公司具体的平台和tools 基本上hadoop ecosystem的各
种tools都要掌握
avatar
f*r
3
感觉就是传统的数据库admin补充一些流行的大数据平台技术,主要还是维护数据,和
一些基本的数据格式转换,统计
但是说实话,真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数
据只是为了省事,这个是hadoop,spark的优势,让管理大量数据智能化(傻瓜化),但
是其实很多时候做数据分析或者机器学习建模,合理的优化设计往往能用(多核)单机
比跑在hadoop上的分布式并行算法还快得多。
avatar
b*n
4
more coding work than dba

感觉就是传统的数据库admin补充一些流行的大数据平台技术,主要还是维护数据,和
一些基本的数据格式转换,统计
但是说实话,真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数
据只是为了省事,这个是hadoop,spark的优势,让管理大量数据智能化(傻瓜化),但
是其实很多时候做数据分析或者机器学习建模,合理的优化设计往往能用(多核)单机
比跑在hadoop上的分布式并行算法还快得多。

【在 f*********r 的大作中提到】
: 感觉就是传统的数据库admin补充一些流行的大数据平台技术,主要还是维护数据,和
: 一些基本的数据格式转换,统计
: 但是说实话,真正有效率的用起来大数据平台的公司其实非常少。很多时候公司用大数
: 据只是为了省事,这个是hadoop,spark的优势,让管理大量数据智能化(傻瓜化),但
: 是其实很多时候做数据分析或者机器学习建模,合理的优化设计往往能用(多核)单机
: 比跑在hadoop上的分布式并行算法还快得多。

avatar
f*r
5
就我最近面过的两个类似职位,都是hadoop管理员这样的,包括data warehousing,
etl,和常用的数据读写界面,不太涉及真正的数据分析,但是可能需要会做简单的统
计,dash board这种
avatar
A*n
6
Data Analyst 应该是做楼上说的数据分析的,我做的其实用不上很多统计知识。
签名:
这个是材料博士后转行来的,在亚马逊做data analyst,发工作日常code (主要是R,
SQL, 以后会发Python), 可参考,亚马逊提供内推。
http://everydayds.com/
avatar
d*n
7
这算data scientist,不算big data engineer。
我说说我们这里的big data engineer都干啥的吧:
1. 设计一个系统,把传统的etl工作用hadoop框架跑起来。当中用到hadoop, mr/pig,
spark, kafka还有诸多nosql数据库不说;
2. 负责系统稳健运行;
3. 各种运行中的问题;
4. 自动化工具, 测试工具;
资深一点的在干嘛:
1. 根据系统特点设计集群大小,设计网络
2. 给BI设计UI自动生成脚本和job产生结果。
还有一些给内部用户和部分外部用户写api的,还有就是解决data scientist各种稀奇
古怪问题的。例如有的data scientist要求在avro和parquet格式之间转换,还有的
data scientist没法处理全部数据,要求帮忙取样。

【在 x****o 的大作中提到】
: 讨论下, 这个算说的靠谱吗?
: ----------------------------------------------
: (Big)Data Engineer(更偏计算机应用)是一个最近比较流行的职位, 其有部分类
: 似于但又不完全类同于Data Scientist (更偏统计模型)也不同于以往BI Engineer/
: developer。
: 一般市场对Data Engineer的要求是,
: 1, Good work experience in using SQL and databases in a business
: environment.
: 熟知数据库技术
: 2, Strong experience in Data Warehouse and Business Intelligence

avatar
x*o
8
收藏你这个版本

,

【在 d****n 的大作中提到】
: 这算data scientist,不算big data engineer。
: 我说说我们这里的big data engineer都干啥的吧:
: 1. 设计一个系统,把传统的etl工作用hadoop框架跑起来。当中用到hadoop, mr/pig,
: spark, kafka还有诸多nosql数据库不说;
: 2. 负责系统稳健运行;
: 3. 各种运行中的问题;
: 4. 自动化工具, 测试工具;
: 资深一点的在干嘛:
: 1. 根据系统特点设计集群大小,设计网络
: 2. 给BI设计UI自动生成脚本和job产生结果。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。