Redian新闻
>
Spark上怎么join avro format的数据?
avatar
Spark上怎么join avro format的数据?# Programming - 葵花宝典
h*6
1
H1B 回国 返签, I-797A 下面的 I-94 出美国时交了,签证时只是交I-797的上半部分
吗?谢谢
avatar
w*g
2
看见这里有scala 和spark的大牛,问问一个困扰多时的问题。Spark上怎么join avro
format的数据?
如果是plain text,用TAB分割开的数据,做join操作很容易就是把A和B表弄成(key,
value)格式的rdd再调用A.join(B)就可以了。但是我现在要join avro格式的数据,还
是A和B,格式都是(STRING, GenericRecord)。读是可以都的,因为可以执行first和
count的action,但是join貌似要shuffle,shuffle的话要serialize 临时数据。已经
用了kyro的serializer register A和B类了,还是不行。大牛谁有经验或者可以run的
例子吗?
avatar
S*I
3
yes

【在 h*****6 的大作中提到】
: H1B 回国 返签, I-797A 下面的 I-94 出美国时交了,签证时只是交I-797的上半部分
: 吗?谢谢

avatar
k*n
5
写一个parser,定义如何每行转成ROWRDD,再定义一个Schema,apply之后,就成为
SchemaRDD,然后可以 按照 SPARK SQL select, join 随便操作。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。