Redian新闻
>
Time series big data大家觉得怎么存储比较好?
avatar
s*m
2
有意思:)
avatar
p*e
3
Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
过文件corrupted大多也可以重新load一次。这distributed file system对time
series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
Hadoop spark处理这些数据。
avatar
S*i
4
谢谢~
avatar
x*4
5
Druid

【在 p*******e 的大作中提到】
: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
: 过文件corrupted大多也可以重新load一次。这distributed file system对time
: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
: Hadoop spark处理这些数据。

avatar
i*n
6
avatar
p*e
7
Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time
series data.大牛展开说说

【在 x***4 的大作中提到】
: Druid
avatar
h*e
8
time flies........
avatar
d*r
9
http://db-engines.com/en/ranking/time+series+dbms

【在 p*******e 的大作中提到】
: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
: 过文件corrupted大多也可以重新load一次。这distributed file system对time
: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
: Hadoop spark处理这些数据。

avatar
h*e
10
co-zan!
avatar
N*m
11
这几个都不太好用
街上用kdb的比较多

【在 p*******e 的大作中提到】
: Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time
: series data.大牛展开说说

avatar
s*i
12
好看
avatar
p*e
13
Kdb query language sucks. 还巨贵

【在 N*****m 的大作中提到】
: 这几个都不太好用
: 街上用kdb的比较多

avatar
p*t
14
哪个意思呢?
就那么有意思么?

【在 s******m 的大作中提到】
: 有意思:)
avatar
N*m
15
贵是有道理的

【在 p*******e 的大作中提到】
: Kdb query language sucks. 还巨贵
avatar
p*e
17
也许十年前可以justify它的价格。现在新project用它的很少听说,倒是onetick抢
了不少市场,虽然我觉得onetick也不怎么样

【在 N*****m 的大作中提到】
: 贵是有道理的
avatar
N*m
18
是的,现在好多新公司都在搞
你可以看看influxdb,不过集群版是收钱的

【在 p*******e 的大作中提到】
: 也许十年前可以justify它的价格。现在新project用它的很少听说,倒是onetick抢
: 了不少市场,虽然我觉得onetick也不怎么样

avatar
x*4
19
你的用途是OLAP吗?
谁会consume这些data?用什么工具?spark, raw query, 还是BI tool?

【在 p*******e 的大作中提到】
: Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time
: series data.大牛展开说说

avatar
p*e
20
用途可能很多是data mining,不需要real time response.感觉druid主要是precompute
query比较快。

【在 x***4 的大作中提到】
: 你的用途是OLAP吗?
: 谁会consume这些data?用什么工具?spark, raw query, 还是BI tool?

avatar
l*s
21
rethink db 怎么样?
avatar
p*e
22
It is shutting down.看起来没人支持了

【在 l*********s 的大作中提到】
: rethink db 怎么样?
avatar
x*4
23
那就先放进spark吧。用parquet。spark大路货,以后应用明确之后倒来倒去也方便。
infra的东西,用的人多非常重要,尽量不要用小众的,免费帮人qa。

precompute

【在 p*******e 的大作中提到】
: 用途可能很多是data mining,不需要real time response.感觉druid主要是precompute
: query比较快。

avatar
l*n
24
关键看你要做啥,存储hdfs没有问题,如果你要做实时处理或者ad-hoc query就不行,
得用in-memory database.

【在 p*******e 的大作中提到】
: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
: 过文件corrupted大多也可以重新load一次。这distributed file system对time
: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
: Hadoop spark处理这些数据。

avatar
w*z
25
time series data, 适合用 Cassandra

【在 p*******e 的大作中提到】
: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
: 过文件corrupted大多也可以重新load一次。这distributed file system对time
: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
: Hadoop spark处理这些数据。

avatar
p*e
26
是的。尽量用成熟的东西,不然到处是陷阱,开源很多这样。

【在 x***4 的大作中提到】
: 那就先放进spark吧。用parquet。spark大路货,以后应用明确之后倒来倒去也方便。
: infra的东西,用的人多非常重要,尽量不要用小众的,免费帮人qa。
:
: precompute

avatar
p*e
27
能说说为什么Cassandra 适合吗?

【在 w**z 的大作中提到】
: time series data, 适合用 Cassandra
avatar
N*m
28
其实不太适用

【在 w**z 的大作中提到】
: time series data, 适合用 Cassandra
avatar
x*4
29
我觉得c不一定合适。不如说你想query某一个时间interval的数据,c就是不是很
efficient。

【在 p*******e 的大作中提到】
: 能说说为什么Cassandra 适合吗?
avatar
N*m
31
这是比较简单的use-case,KarioDB这些都是基于cassandra
首先,cassandra的wide-column的时间精度不够,不适用楼主说的tick data;其次效
率比较差;然后自带的functionalities不行,得有二次开发,所以有了kariodb这些

【在 w**z 的大作中提到】
: Cassandra 的卖点之一就是 time series data
: http://academy.datastax.com/resources/getting-started-time-series-data-modeling
: https://www.datastax.com/dev/blog/advanced-time-series-data-modelling

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。