Redian新闻
>
pyspark subtract 如何使用?
avatar
pyspark subtract 如何使用?# DataSciences - 数据科学
w*2
1
请教spark的大牛,
有两个rdd,请问如何得到一个rdd的补集。
比如rdd1 - rdd2。
我用的是python,但是subtract好像不管用呢。
如果不用subtract,还有哪些其他的方法?
多谢了。
avatar
Z*0
2
你没有给出来为什么substract用不了,或者出了什么问题。
toy example
rdd1 = sc.parallelize(range(10))
rdd2 = sc.parallelize(range(5))
rdd1.subtract(rdd2).collect()
[8, 9, 5, 6, 7]
rdd2.subtract(rdd1).collect()
[]
avatar
w*2
3
谢谢 你的回复。
我现在是有一个dataset,然后我已经随机选择了80%左右的data(labeledPoint)作为
training dataset,
然后我想把training的数据从整体中除去。
注: parsed_date是整体的数据。
train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count()))
train_data = sc.parallelize(train_data)
test_data = parsed_data.subtract(train_data)
可是test_date.count() 等于整体数据的大小,training data没有被减掉。 我试了你
的方法,还是没能解决。
avatar
e*9
4
用randomSplit可以实现分割数据集

【在 w**2 的大作中提到】
: 谢谢 你的回复。
: 我现在是有一个dataset,然后我已经随机选择了80%左右的data(labeledPoint)作为
: training dataset,
: 然后我想把training的数据从整体中除去。
: 注: parsed_date是整体的数据。
: train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count()))
: train_data = sc.parallelize(train_data)
: test_data = parsed_data.subtract(train_data)
: 可是test_date.count() 等于整体数据的大小,training data没有被减掉。 我试了你
: 的方法,还是没能解决。

avatar
Z*0
5
spark提供了一个专门的函数,randomSplit。
trainingData, testData = rawData.randomSplit([0.8,0.2], 10)

【在 w**2 的大作中提到】
: 谢谢 你的回复。
: 我现在是有一个dataset,然后我已经随机选择了80%左右的data(labeledPoint)作为
: training dataset,
: 然后我想把training的数据从整体中除去。
: 注: parsed_date是整体的数据。
: train_data = parsed_data.takeSample(False, int(0.8*parsed_data.count()))
: train_data = sc.parallelize(train_data)
: test_data = parsed_data.subtract(train_data)
: 可是test_date.count() 等于整体数据的大小,training data没有被减掉。 我试了你
: 的方法,还是没能解决。

avatar
w*2
6
搞定了,多谢!

【在 Z**0 的大作中提到】
: spark提供了一个专门的函数,randomSplit。
: trainingData, testData = rawData.randomSplit([0.8,0.2], 10)

avatar
w*2
7
嗯,解决了。多谢!

【在 e********9 的大作中提到】
: 用randomSplit可以实现分割数据集
avatar
r*w
8
求补集可以用 filter() 搞定。

【在 w**2 的大作中提到】
: 请教spark的大牛,
: 有两个rdd,请问如何得到一个rdd的补集。
: 比如rdd1 - rdd2。
: 我用的是python,但是subtract好像不管用呢。
: 如果不用subtract,还有哪些其他的方法?
: 多谢了。

avatar
w*2
9
好的,弱问一下在这个情况下filter在如何使用?谢谢

【在 r***w 的大作中提到】
: 求补集可以用 filter() 搞定。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。