Redian新闻
>
[hortonworks面经] senior hadoop engineer
avatar
[hortonworks面经] senior hadoop engineer# JobHunting - 待字闺中
d*w
1
他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
0. hadoop大致问题
partition默认方式是什么,
1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进,变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos, mapreduce,和其他并行计算的engine,通过配置嵌入到系统中,有
扩展性,方便支持其他的引擎,而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化,什么skew join, partition join, 其实hadoop对join的操
作是支持不好,他没有见索引,牵涉到大量的数据移动,非得让他支持数据库的特性,
是有些为难了。
除了hadoop的东西
问了一些java同步的问题,volatile, synchronized修饰static和普通方法的区别
给一个source根目录,里面涉及到很多模块(模块之间有dependency),几十w个源文
件,如果想编译除最后的binary code,需要几天的时间,如果给你多台机器,设计算
法来分布式编译提高效率
queue实现stack,stack实现queue
avatar
g*y
2
大牛

【在 d********w 的大作中提到】
: 他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
: 0. hadoop大致问题
: partition默认方式是什么,
: 1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
: remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
: ,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
: 有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
: 做merge
: 2. High Availability
: 提到0.23这个版本的改进,变化挺大的

avatar
d*w
3
还有个比较好玩的,hortonworks跟微软合作,cloudera跟oracle合作,都是互相利用

【在 d********w 的大作中提到】
: 他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
: 0. hadoop大致问题
: partition默认方式是什么,
: 1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
: remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
: ,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
: 有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
: 做merge
: 2. High Availability
: 提到0.23这个版本的改进,变化挺大的

avatar
c*p
4
更有意思的是,这两个公司都是yahoo hadoop组的人组建的。cloudera是最早那批作
hadoop的人,而hortonworks是去年yahoo分出去的。

【在 d********w 的大作中提到】
: 还有个比较好玩的,hortonworks跟微软合作,cloudera跟oracle合作,都是互相利用
avatar
j*x
5
第一个就是erasure coding吧
avatar
z*8
6
传说中到处onsite攒mileage的大牛?
avatar
d*w
7
我哪有mileage,都是公司帮我定好的!

【在 z*********8 的大作中提到】
: 传说中到处onsite攒mileage的大牛?
avatar
d*w
8
他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
0. hadoop大致问题
partition默认方式是什么,
1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进,变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos, mapreduce,和其他并行计算的engine,通过配置嵌入到系统中,有
扩展性,方便支持其他的引擎,而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化,什么skew join, partition join, 其实hadoop对join的操
作是支持不好,他没有见索引,牵涉到大量的数据移动,非得让他支持数据库的特性,
是有些为难了。
除了hadoop的东西
问了一些java同步的问题,volatile, synchronized修饰static和普通方法的区别
给一个source根目录,里面涉及到很多模块(模块之间有dependency),几十w个源文
件,如果想编译除最后的binary code,需要几天的时间,如果给你多台机器,设计算
法来分布式编译提高效率
queue实现stack,stack实现queue
avatar
g*y
9
大牛

【在 d********w 的大作中提到】
: 他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
: 0. hadoop大致问题
: partition默认方式是什么,
: 1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
: remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
: ,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
: 有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
: 做merge
: 2. High Availability
: 提到0.23这个版本的改进,变化挺大的

avatar
d*w
10
还有个比较好玩的,hortonworks跟微软合作,cloudera跟oracle合作,都是互相利用

【在 d********w 的大作中提到】
: 他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
: 0. hadoop大致问题
: partition默认方式是什么,
: 1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
: remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
: ,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
: 有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
: 做merge
: 2. High Availability
: 提到0.23这个版本的改进,变化挺大的

avatar
c*p
11
更有意思的是,这两个公司都是yahoo hadoop组的人组建的。cloudera是最早那批作
hadoop的人,而hortonworks是去年yahoo分出去的。

【在 d********w 的大作中提到】
: 还有个比较好玩的,hortonworks跟微软合作,cloudera跟oracle合作,都是互相利用
avatar
j*x
12
第一个就是erasure coding吧
avatar
z*8
13
传说中到处onsite攒mileage的大牛?
avatar
d*w
14
我哪有mileage,都是公司帮我定好的!

【在 z*********8 的大作中提到】
: 传说中到处onsite攒mileage的大牛?
avatar
a*s
15
这个公司在linkedIn上的招聘广告号称,不需要懂Hadoop的人,只要懂java的。
avatar
a*s
16
这个公司在linkedIn上的招聘广告号称,不需要懂Hadoop的人,只要懂java的。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。