Pig 问题请教# DataSciences - 数据科学
k*o
1 楼
Pig里面可以define某一列为mapper key吗? 比如load之后:
data=load '$INPUT' as (AA, BB, CC);
我经常需要garantee $OUTPUT里面相同的BB要在同一个reducer... partition by 可以
,但是
要自己定义hash function,有没有可以快速定义哪一个是mapper key的?pig
默认是random hashing的吧?目前知道
join by BB之后的BB自动默认为mapper key,但是order by 和group by 都不garentee
。。。
当然,实在不行自己写个mapreduce直接输入输出就可以,但是pig应该有这种不需要脱
裤子放屁的方式吧?
HIVE里面有方法也可以!
多谢大家!
data=load '$INPUT' as (AA, BB, CC);
我经常需要garantee $OUTPUT里面相同的BB要在同一个reducer... partition by 可以
,但是
要自己定义hash function,有没有可以快速定义哪一个是mapper key的?pig
默认是random hashing的吧?目前知道
join by BB之后的BB自动默认为mapper key,但是order by 和group by 都不garentee
。。。
当然,实在不行自己写个mapreduce直接输入输出就可以,但是pig应该有这种不需要脱
裤子放屁的方式吧?
HIVE里面有方法也可以!
多谢大家!