[hortonworks面经] senior hadoop engineer# JobHunting - 待字闺中
d*w
1 楼
他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
0. hadoop大致问题
partition默认方式是什么,
1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进,变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos, mapreduce,和其他并行计算的engine,通过配置嵌入到系统中,有
扩展性,方便支持其他的引擎,而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化,什么skew join, partition join, 其实hadoop对join的操
作是支持不好,他没有见索引,牵涉到大量的数据移动,非得让他支持数据库的特性,
是有些为难了。
除了hadoop的东西
问了一些java同步的问题,volatile, synchronized修饰static和普通方法的区别
给一个source根目录,里面涉及到很多模块(模块之间有dependency),几十w个源文
件,如果想编译除最后的binary code,需要几天的时间,如果给你多台机器,设计算
法来分布式编译提高效率
queue实现stack,stack实现queue
0. hadoop大致问题
partition默认方式是什么,
1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进,变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos, mapreduce,和其他并行计算的engine,通过配置嵌入到系统中,有
扩展性,方便支持其他的引擎,而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化,什么skew join, partition join, 其实hadoop对join的操
作是支持不好,他没有见索引,牵涉到大量的数据移动,非得让他支持数据库的特性,
是有些为难了。
除了hadoop的东西
问了一些java同步的问题,volatile, synchronized修饰static和普通方法的区别
给一个source根目录,里面涉及到很多模块(模块之间有dependency),几十w个源文
件,如果想编译除最后的binary code,需要几天的时间,如果给你多台机器,设计算
法来分布式编译提高效率
queue实现stack,stack实现queue