g*e
2 楼
打出来了confirmation,在哪里签名呢?
多谢了。
多谢了。
s*s
3 楼
我们是用kinesis接受数据,再由spark streaming做一些数据处理,然后请教大牛们两
个问题,
1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
,datastax开源的,可惜头一定要production用dynamo)
2)如何从dynamo 读 数据到 spark 做 batch 处理
谢谢
个问题,
1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
,datastax开源的,可惜头一定要production用dynamo)
2)如何从dynamo 读 数据到 spark 做 batch 处理
谢谢
z*e
7 楼
这个要问amazon了
你们为啥会用dynamo呢?
这个东西会导致vendor lockin
公司里谁被amazon的sales忽悠了吧?
你们为啥会用dynamo呢?
这个东西会导致vendor lockin
公司里谁被amazon的sales忽悠了吧?
c*a
8 楼
写很简单。我没看懂你有啥困难的?在function里面直接写就行了,只是要注意控制
provision
通俗点就像在MR里面在mapper里面开连接写就是了。
读会相对比较麻烦。如果你是说scan的话,2种做法吧,数据量不大就在driver里面读
。数据量大的话就分片到每个tasks里面,然后返回RDD。
dynamo用起来不便宜,如果你们确定数据量很大,其实Cassandra可能更好。但是如果
你们现在没有已有的Cassandra,那么可能TCO Cassandra更贵就是了,因为dynamo你们
可以不用Admin。
connector
【在 s*********s 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 我们是用kinesis接受数据,再由spark streaming做一些数据处理,然后请教大牛们两
: 个问题,
: 1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
: ,datastax开源的,可惜头一定要production用dynamo)
: 2)如何从dynamo 读 数据到 spark 做 batch 处理
: 谢谢
provision
通俗点就像在MR里面在mapper里面开连接写就是了。
读会相对比较麻烦。如果你是说scan的话,2种做法吧,数据量不大就在driver里面读
。数据量大的话就分片到每个tasks里面,然后返回RDD。
dynamo用起来不便宜,如果你们确定数据量很大,其实Cassandra可能更好。但是如果
你们现在没有已有的Cassandra,那么可能TCO Cassandra更贵就是了,因为dynamo你们
可以不用Admin。
connector
【在 s*********s 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 我们是用kinesis接受数据,再由spark streaming做一些数据处理,然后请教大牛们两
: 个问题,
: 1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
: ,datastax开源的,可惜头一定要production用dynamo)
: 2)如何从dynamo 读 数据到 spark 做 batch 处理
: 谢谢
s*s
11 楼
被你这么说 好像写是挺简单 只要用dstream的map函数 在里面写输出是吧 我回头去试试
读的话我原本也是担心是转换 我看到网上一个贴说用dynamoInputFormat转HadoopRDD
可能确实是Cassandra更好也说不定 但是用dynamo已经是板上钉钉的事。。
这周的strata 好像也是spark最火
【在 c*****a 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 写很简单。我没看懂你有啥困难的?在function里面直接写就行了,只是要注意控制
: provision
: 通俗点就像在MR里面在mapper里面开连接写就是了。
: 读会相对比较麻烦。如果你是说scan的话,2种做法吧,数据量不大就在driver里面读
: 。数据量大的话就分片到每个tasks里面,然后返回RDD。
: dynamo用起来不便宜,如果你们确定数据量很大,其实Cassandra可能更好。但是如果
: 你们现在没有已有的Cassandra,那么可能TCO Cassandra更贵就是了,因为dynamo你们
: 可以不用Admin。
:
: connector
读的话我原本也是担心是转换 我看到网上一个贴说用dynamoInputFormat转HadoopRDD
可能确实是Cassandra更好也说不定 但是用dynamo已经是板上钉钉的事。。
这周的strata 好像也是spark最火
【在 c*****a 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 写很简单。我没看懂你有啥困难的?在function里面直接写就行了,只是要注意控制
: provision
: 通俗点就像在MR里面在mapper里面开连接写就是了。
: 读会相对比较麻烦。如果你是说scan的话,2种做法吧,数据量不大就在driver里面读
: 。数据量大的话就分片到每个tasks里面,然后返回RDD。
: dynamo用起来不便宜,如果你们确定数据量很大,其实Cassandra可能更好。但是如果
: 你们现在没有已有的Cassandra,那么可能TCO Cassandra更贵就是了,因为dynamo你们
: 可以不用Admin。
:
: connector
相关阅读
about critical section蔡鸟C++ 类型问题python下的expectc++ template question:Interview Question关于std::vector的一个很简单的问题一个Perl 匹配问题【讨论】Linux启动时执行配置文件的顺序 (转载)明天要做c++ paper test,他们一般会怎么测试啊?为什么不能成功排序有个关于stack address的问题发布一个数独游戏软件推荐一个network programming的C++ library? (转载)关于brainbench的c++考试,大家都是选什么level?dynamic_cast operator in C++一个c++问题 (转载)does the system guarantee this? (转载)申请 programming 版 BM关于C C++ 和java的文件读写问题请问可以这样定义struct吗?