avatar
k*o
1
Pig里面可以define某一列为mapper key吗? 比如load之后:
data=load '$INPUT' as (AA, BB, CC);
我经常需要garantee $OUTPUT里面相同的BB要在同一个reducer... partition by 可以
,但是
要自己定义hash function,有没有可以快速定义哪一个是mapper key的?pig
默认是random hashing的吧?目前知道
join by BB之后的BB自动默认为mapper key,但是order by 和group by 都不garentee
。。。
当然,实在不行自己写个mapreduce直接输入输出就可以,但是pig应该有这种不需要脱
裤子放屁的方式吧?
HIVE里面有方法也可以!
多谢大家!
avatar
c*z
2
不懂帮顶
另外楼主Google过了么
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。