Redian新闻
>
spark上一两个million的时间序列数据
avatar
spark上一两个million的时间序列数据# DataSciences - 数据科学
S*o
1
目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型。
sample出来用包的话,感觉浪费数据了,还是想把百万数据先分类再分别fit模型。大
家有什么好建议?
avatar
s*h
2
Batch train?数据分成几百个小部分。
avatar
S*o
3
能展开说说嘛,折腾了半天还是决定用r,我们的大数据平台上没有。怎么化整为零的做
聚类和预测比较好?
avatar
s*h
4
不知道你说的大数据平台是什么。这个问题没有详细的开发环境解释没法解决。我有预
感你们想做的东西不是免费的答复能解决的…


: 能展开说说嘛,折腾了半天还是决定用r,我们的大数据平台上没有。怎么化整为
零的做

: 聚类和预测比较好?



【在 S*****o 的大作中提到】
: 能展开说说嘛,折腾了半天还是决定用r,我们的大数据平台上没有。怎么化整为零的做
: 聚类和预测比较好?

avatar
E*g
5
看你要做什么模型
这么一点数据量,直接训练模型就好,分类再分别fit是什么意思?

【在 S*****o 的大作中提到】
: 目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型。
: sample出来用包的话,感觉浪费数据了,还是想把百万数据先分类再分别fit模型。大
: 家有什么好建议?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。