Spark上怎么join avro format的数据?# Programming - 葵花宝典h*62014-11-03 08:111 楼H1B 回国 返签, I-797A 下面的 I-94 出美国时交了,签证时只是交I-797的上半部分吗?谢谢
w*g2014-11-03 08:112 楼看见这里有scala 和spark的大牛,问问一个困扰多时的问题。Spark上怎么join avroformat的数据?如果是plain text,用TAB分割开的数据,做join操作很容易就是把A和B表弄成(key,value)格式的rdd再调用A.join(B)就可以了。但是我现在要join avro格式的数据,还是A和B,格式都是(STRING, GenericRecord)。读是可以都的,因为可以执行first和count的action,但是join貌似要shuffle,shuffle的话要serialize 临时数据。已经用了kyro的serializer register A和B类了,还是不行。大牛谁有经验或者可以run的例子吗?
S*I2014-11-03 08:113 楼yes【在 h*****6 的大作中提到】: H1B 回国 返签, I-797A 下面的 I-94 出美国时交了,签证时只是交I-797的上半部分: 吗?谢谢
k*n2014-11-03 08:115 楼写一个parser,定义如何每行转成ROWRDD,再定义一个Schema,apply之后,就成为SchemaRDD,然后可以 按照 SPARK SQL select, join 随便操作。