g*e
2 楼
打出来了confirmation,在哪里签名呢?
多谢了。
多谢了。
s*s
3 楼
我们是用kinesis接受数据,再由spark streaming做一些数据处理,然后请教大牛们两
个问题,
1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
,datastax开源的,可惜头一定要production用dynamo)
2)如何从dynamo 读 数据到 spark 做 batch 处理
谢谢
个问题,
1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
,datastax开源的,可惜头一定要production用dynamo)
2)如何从dynamo 读 数据到 spark 做 batch 处理
谢谢
z*e
7 楼
这个要问amazon了
你们为啥会用dynamo呢?
这个东西会导致vendor lockin
公司里谁被amazon的sales忽悠了吧?
你们为啥会用dynamo呢?
这个东西会导致vendor lockin
公司里谁被amazon的sales忽悠了吧?
c*a
8 楼
写很简单。我没看懂你有啥困难的?在function里面直接写就行了,只是要注意控制
provision
通俗点就像在MR里面在mapper里面开连接写就是了。
读会相对比较麻烦。如果你是说scan的话,2种做法吧,数据量不大就在driver里面读
。数据量大的话就分片到每个tasks里面,然后返回RDD。
dynamo用起来不便宜,如果你们确定数据量很大,其实Cassandra可能更好。但是如果
你们现在没有已有的Cassandra,那么可能TCO Cassandra更贵就是了,因为dynamo你们
可以不用Admin。
connector
【在 s*********s 的大作中提到】
: 我们是用kinesis接受数据,再由spark streaming做一些数据处理,然后请教大牛们两
: 个问题,
: 1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
: ,datastax开源的,可惜头一定要production用dynamo)
: 2)如何从dynamo 读 数据到 spark 做 batch 处理
: 谢谢
provision
通俗点就像在MR里面在mapper里面开连接写就是了。
读会相对比较麻烦。如果你是说scan的话,2种做法吧,数据量不大就在driver里面读
。数据量大的话就分片到每个tasks里面,然后返回RDD。
dynamo用起来不便宜,如果你们确定数据量很大,其实Cassandra可能更好。但是如果
你们现在没有已有的Cassandra,那么可能TCO Cassandra更贵就是了,因为dynamo你们
可以不用Admin。
connector
【在 s*********s 的大作中提到】
: 我们是用kinesis接受数据,再由spark streaming做一些数据处理,然后请教大牛们两
: 个问题,
: 1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
: ,datastax开源的,可惜头一定要production用dynamo)
: 2)如何从dynamo 读 数据到 spark 做 batch 处理
: 谢谢
s*s
11 楼
被你这么说 好像写是挺简单 只要用dstream的map函数 在里面写输出是吧 我回头去试试
读的话我原本也是担心是转换 我看到网上一个贴说用dynamoInputFormat转HadoopRDD
可能确实是Cassandra更好也说不定 但是用dynamo已经是板上钉钉的事。。
这周的strata 好像也是spark最火
【在 c*****a 的大作中提到】
: 写很简单。我没看懂你有啥困难的?在function里面直接写就行了,只是要注意控制
: provision
: 通俗点就像在MR里面在mapper里面开连接写就是了。
: 读会相对比较麻烦。如果你是说scan的话,2种做法吧,数据量不大就在driver里面读
: 。数据量大的话就分片到每个tasks里面,然后返回RDD。
: dynamo用起来不便宜,如果你们确定数据量很大,其实Cassandra可能更好。但是如果
: 你们现在没有已有的Cassandra,那么可能TCO Cassandra更贵就是了,因为dynamo你们
: 可以不用Admin。
:
: connector
读的话我原本也是担心是转换 我看到网上一个贴说用dynamoInputFormat转HadoopRDD
可能确实是Cassandra更好也说不定 但是用dynamo已经是板上钉钉的事。。
这周的strata 好像也是spark最火
【在 c*****a 的大作中提到】
: 写很简单。我没看懂你有啥困难的?在function里面直接写就行了,只是要注意控制
: provision
: 通俗点就像在MR里面在mapper里面开连接写就是了。
: 读会相对比较麻烦。如果你是说scan的话,2种做法吧,数据量不大就在driver里面读
: 。数据量大的话就分片到每个tasks里面,然后返回RDD。
: dynamo用起来不便宜,如果你们确定数据量很大,其实Cassandra可能更好。但是如果
: 你们现在没有已有的Cassandra,那么可能TCO Cassandra更贵就是了,因为dynamo你们
: 可以不用Admin。
:
: connector
相关阅读
https connection problem in C#windows下面怎么远程调用一个linux下的命令?C/C++ ferror()的返回值问题C++编程问题:union inside structDefault function template arguments这里有搞矩阵计算的么?关于传递函数指针什么是win xp 上最好的C programming environment?What is wrong in this array declaration.我写的屏保程序easy problem coconut这道题贴过没有?问一个函数对象问题如何修改linux PATH 以便programming?总是搞不清c++里面函数前头和后头的const...实时进程间通讯问题help -- matlab acceleration如何从excel以特定格式导出数据到word? (转载)大家programming时怎么命名?问一个C语言中类型cast的问题