spark上一两个million的时间序列数据# DataSciences - 数据科学S*o2017-12-14 08:121 楼目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型。sample出来用包的话,感觉浪费数据了,还是想把百万数据先分类再分别fit模型。大家有什么好建议?
s*h2017-12-14 08:124 楼不知道你说的大数据平台是什么。这个问题没有详细的开发环境解释没法解决。我有预感你们想做的东西不是免费的答复能解决的…: 能展开说说嘛,折腾了半天还是决定用r,我们的大数据平台上没有。怎么化整为零的做: 聚类和预测比较好?【在 S*****o 的大作中提到】: 能展开说说嘛,折腾了半天还是决定用r,我们的大数据平台上没有。怎么化整为零的做: 聚类和预测比较好?
E*g2017-12-14 08:125 楼看你要做什么模型这么一点数据量,直接训练模型就好,分类再分别fit是什么意思?【在 S*****o 的大作中提到】: 目前最大的问题是spark dataframe没有好的包能用,只能自己手动抄代码写模型。: sample出来用包的话,感觉浪费数据了,还是想把百万数据先分类再分别fit模型。大: 家有什么好建议?