Redian新闻
>
Spark 和 Dynamodb 之间 如何 连接
avatar
Spark 和 Dynamodb 之间 如何 连接# Programming - 葵花宝典
z*2
1
求审稿,细菌研究领域。
email: [email protected]
谢谢大家!
avatar
g*e
2
打出来了confirmation,在哪里签名呢?
多谢了。
avatar
s*s
3
我们是用kinesis接受数据,再由spark streaming做一些数据处理,然后请教大牛们两
个问题,
1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
,datastax开源的,可惜头一定要production用dynamo)
2)如何从dynamo 读 数据到 spark 做 batch 处理
谢谢
avatar
D*G
4
No signature required on the confirmation page.

【在 g****e 的大作中提到】
: 打出来了confirmation,在哪里签名呢?
: 多谢了。

avatar
P*i
5
直接用aws java/scala sdk不行吗?

connector

【在 s*********s 的大作中提到】
: 我们是用kinesis接受数据,再由spark streaming做一些数据处理,然后请教大牛们两
: 个问题,
: 1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
: ,datastax开源的,可惜头一定要production用dynamo)
: 2)如何从dynamo 读 数据到 spark 做 batch 处理
: 谢谢

avatar
g*e
6
谢谢。给你转了一个包子。

【在 D*****G 的大作中提到】
: No signature required on the confirmation page.
avatar
z*e
7
这个要问amazon了
你们为啥会用dynamo呢?
这个东西会导致vendor lockin
公司里谁被amazon的sales忽悠了吧?
avatar
c*a
8
写很简单。我没看懂你有啥困难的?在function里面直接写就行了,只是要注意控制
provision
通俗点就像在MR里面在mapper里面开连接写就是了。
读会相对比较麻烦。如果你是说scan的话,2种做法吧,数据量不大就在driver里面读
。数据量大的话就分片到每个tasks里面,然后返回RDD。
dynamo用起来不便宜,如果你们确定数据量很大,其实Cassandra可能更好。但是如果
你们现在没有已有的Cassandra,那么可能TCO Cassandra更贵就是了,因为dynamo你们
可以不用Admin。

connector

【在 s*********s 的大作中提到】
: 我们是用kinesis接受数据,再由spark streaming做一些数据处理,然后请教大牛们两
: 个问题,
: 1)从spark streaming 如何直接存到 dynamo (Cassandra就有一个很好的connector
: ,datastax开源的,可惜头一定要production用dynamo)
: 2)如何从dynamo 读 数据到 spark 做 batch 处理
: 谢谢

avatar
s*s
9
对 java sdk 是可以的

【在 P****i 的大作中提到】
: 直接用aws java/scala sdk不行吗?
:
: connector

avatar
s*s
10
可能头不想我们承担数据库方面的风险吧 如果数据库方面出问题,就不是我们的责任了

【在 z****e 的大作中提到】
: 这个要问amazon了
: 你们为啥会用dynamo呢?
: 这个东西会导致vendor lockin
: 公司里谁被amazon的sales忽悠了吧?

avatar
s*s
11
被你这么说 好像写是挺简单 只要用dstream的map函数 在里面写输出是吧 我回头去试试
读的话我原本也是担心是转换 我看到网上一个贴说用dynamoInputFormat转HadoopRDD
可能确实是Cassandra更好也说不定 但是用dynamo已经是板上钉钉的事。。
这周的strata 好像也是spark最火

【在 c*****a 的大作中提到】
: 写很简单。我没看懂你有啥困难的?在function里面直接写就行了,只是要注意控制
: provision
: 通俗点就像在MR里面在mapper里面开连接写就是了。
: 读会相对比较麻烦。如果你是说scan的话,2种做法吧,数据量不大就在driver里面读
: 。数据量大的话就分片到每个tasks里面,然后返回RDD。
: dynamo用起来不便宜,如果你们确定数据量很大,其实Cassandra可能更好。但是如果
: 你们现在没有已有的Cassandra,那么可能TCO Cassandra更贵就是了,因为dynamo你们
: 可以不用Admin。
:
: connector

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。