Time series big data大家觉得怎么存储比较好?# Programming - 葵花宝典s*i2017-03-06 08:031 楼http://www.skymall.com/shopping/detail.htm?pid=102727481&c=
p*e2017-03-06 08:033 楼Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不过文件corrupted大多也可以重新load一次。这distributed file system对timeseries data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用Hadoop spark处理这些数据。
x*42017-03-06 08:035 楼Druid【在 p*******e 的大作中提到】: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不: 过文件corrupted大多也可以重新load一次。这distributed file system对time: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用: Hadoop spark处理这些数据。
p*e2017-03-06 08:037 楼Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合timeseries data.大牛展开说说【在 x***4 的大作中提到】: Druid
d*r2017-03-06 08:039 楼http://db-engines.com/en/ranking/time+series+dbms【在 p*******e 的大作中提到】: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不: 过文件corrupted大多也可以重新load一次。这distributed file system对time: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用: Hadoop spark处理这些数据。
N*m2017-03-06 08:0311 楼这几个都不太好用街上用kdb的比较多【在 p*******e 的大作中提到】: Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time: series data.大牛展开说说
p*e2017-03-06 08:0316 楼谢谢。这个排名主要是popularity【在 d*******r 的大作中提到】: http://db-engines.com/en/ranking/time+series+dbms
p*e2017-03-06 08:0317 楼也许十年前可以justify它的价格。现在新project用它的很少听说,倒是onetick抢了不少市场,虽然我觉得onetick也不怎么样【在 N*****m 的大作中提到】: 贵是有道理的
N*m2017-03-06 08:0318 楼是的,现在好多新公司都在搞你可以看看influxdb,不过集群版是收钱的【在 p*******e 的大作中提到】: 也许十年前可以justify它的价格。现在新project用它的很少听说,倒是onetick抢: 了不少市场,虽然我觉得onetick也不怎么样
x*42017-03-06 08:0319 楼你的用途是OLAP吗?谁会consume这些data?用什么工具?spark, raw query, 还是BI tool?【在 p*******e 的大作中提到】: Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time: series data.大牛展开说说
p*e2017-03-06 08:0320 楼用途可能很多是data mining,不需要real time response.感觉druid主要是precomputequery比较快。【在 x***4 的大作中提到】: 你的用途是OLAP吗?: 谁会consume这些data?用什么工具?spark, raw query, 还是BI tool?
x*42017-03-06 08:0323 楼那就先放进spark吧。用parquet。spark大路货,以后应用明确之后倒来倒去也方便。infra的东西,用的人多非常重要,尽量不要用小众的,免费帮人qa。precompute【在 p*******e 的大作中提到】: 用途可能很多是data mining,不需要real time response.感觉druid主要是precompute: query比较快。
l*n2017-03-06 08:0324 楼关键看你要做啥,存储hdfs没有问题,如果你要做实时处理或者ad-hoc query就不行,得用in-memory database.【在 p*******e 的大作中提到】: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不: 过文件corrupted大多也可以重新load一次。这distributed file system对time: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用: Hadoop spark处理这些数据。
w*z2017-03-06 08:0325 楼time series data, 适合用 Cassandra【在 p*******e 的大作中提到】: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不: 过文件corrupted大多也可以重新load一次。这distributed file system对time: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用: Hadoop spark处理这些数据。
p*e2017-03-06 08:0326 楼是的。尽量用成熟的东西,不然到处是陷阱,开源很多这样。【在 x***4 的大作中提到】: 那就先放进spark吧。用parquet。spark大路货,以后应用明确之后倒来倒去也方便。: infra的东西,用的人多非常重要,尽量不要用小众的,免费帮人qa。: : precompute
x*42017-03-06 08:0329 楼我觉得c不一定合适。不如说你想query某一个时间interval的数据,c就是不是很efficient。【在 p*******e 的大作中提到】: 能说说为什么Cassandra 适合吗?
w*z2017-03-06 08:0330 楼Cassandra 的卖点之一就是 time series datahttp://academy.datastax.com/resources/getting-started-time-series-data-modelinghttps://www.datastax.com/dev/blog/advanced-time-series-data-modelling【在 p*******e 的大作中提到】: 能说说为什么Cassandra 适合吗?
N*m2017-03-06 08:0331 楼这是比较简单的use-case,KarioDB这些都是基于cassandra首先,cassandra的wide-column的时间精度不够,不适用楼主说的tick data;其次效率比较差;然后自带的functionalities不行,得有二次开发,所以有了kariodb这些【在 w**z 的大作中提到】: Cassandra 的卖点之一就是 time series data: http://academy.datastax.com/resources/getting-started-time-series-data-modeling: https://www.datastax.com/dev/blog/advanced-time-series-data-modelling