spark上一两个million的时间序列数据 - 未名空间MITBBS历史存档

spark上一两个million的时间序列数据

spark上一两个million的时间序列数据# DataSciences - 数据科学

S*o2017-12-14 08:12

1 楼

目前最大的问题是spark dataframe没有好的包能用，只能自己手动抄代码写模型。
sample出来用包的话，感觉浪费数据了，还是想把百万数据先分类再分别fit模型。大
家有什么好建议？

s*h2017-12-14 08:12

2 楼

Batch train?数据分成几百个小部分。

S*o2017-12-14 08:12

3 楼

能展开说说嘛，折腾了半天还是决定用r,我们的大数据平台上没有。怎么化整为零的做
聚类和预测比较好？

s*h2017-12-14 08:12

4 楼

不知道你说的大数据平台是什么。这个问题没有详细的开发环境解释没法解决。我有预
感你们想做的东西不是免费的答复能解决的…

: 能展开说说嘛，折腾了半天还是决定用r,我们的大数据平台上没有。怎么化整为
零的做

: 聚类和预测比较好？

【在 S*****o 的大作中提到】

: 能展开说说嘛，折腾了半天还是决定用r,我们的大数据平台上没有。怎么化整为零的做
: 聚类和预测比较好？

E*g2017-12-14 08:12

5 楼

看你要做什么模型
这么一点数据量，直接训练模型就好，分类再分别fit是什么意思？

【在 S*****o 的大作中提到】

: 目前最大的问题是spark dataframe没有好的包能用，只能自己手动抄代码写模型。
: sample出来用包的话，感觉浪费数据了，还是想把百万数据先分类再分别fit模型。大
: 家有什么好建议？

2024-01-28 18:01

2024-01-09 19:01

2024-01-07 18:01

2024-01-06 18:01

2024-01-06 18:01

2023-12-13 17:12

2023-12-02 07:12

2023-11-26 18:11