avatar
问个大数据的问题# DataSciences - 数据科学
m*h
1
问个大数据的问题,
假设我有一个sensor,接受streaming data, 数据进来以后就process(一些general
的 signal processing, filtering, feature extracting), 目的是anormaly
detection, 所以输出是whether or not abormaly is detected. 这些是算法问题,可
以解决。
现在的问题是如果我有1 million 这样的sensor, 相互之间是独立的,每个sensor
streaming进来自己的data, 同样的data processing 算法来对它自己收到的data 做
anormaly detection。
怎么才能让这个big data 问题最优化? 怎么设计系统和平行算法?
我本人做算法,不是data scientist, 所以请教大牛们! 谢谢!
avatar
T*u
2
sensor独立是什么意思?sensor探测到的data相互独立吗?
avatar
m*h
3
是的,就是假设sensor探测到的data相互独立。信号处理算法只处理自己的sensor
data,不存在depend on data from other sensors.
谢谢!

【在 T*****u 的大作中提到】
: sensor独立是什么意思?sensor探测到的data相互独立吗?
avatar
l*n
4
你要最优化什么?因为如果你的streaming data是连续的,那你的负载就完全均衡,假
设你有100个nodes,那就每个node处理10k的 sensor的data。
没啥可设计的

【在 m******h 的大作中提到】
: 问个大数据的问题,
: 假设我有一个sensor,接受streaming data, 数据进来以后就process(一些general
: 的 signal processing, filtering, feature extracting), 目的是anormaly
: detection, 所以输出是whether or not abormaly is detected. 这些是算法问题,可
: 以解决。
: 现在的问题是如果我有1 million 这样的sensor, 相互之间是独立的,每个sensor
: streaming进来自己的data, 同样的data processing 算法来对它自己收到的data 做
: anormaly detection。
: 怎么才能让这个big data 问题最优化? 怎么设计系统和平行算法?
: 我本人做算法,不是data scientist, 所以请教大牛们! 谢谢!

avatar
T*u
5
你要设计啥啊?是试图用最少的机器来handle anormaly吗?
avatar
m*h
6
谢谢上面两位的回答。我不是data scientist, 所以问的可能太general。
我知道肯定得distributed,但比如说怎么决定是100,还是1000 nodes,哪个更好?
1000 个nodes肯定更快,但有什么缺点? (数据传输?)
从data science 的角度, 怎么个分析处理这样的问题呢? 这是别人问我的一个open
问题,不是让我说个答案, 而是让我想想从仅仅处理一个sensor, 到要处理million 个
,怎么解决这个问题。
谢谢
avatar
o*n
7
你这个问题听起来更像分布式系统或者并行计算的问题
avatar
m*h
8
是啊,我以为hadoop什么的就是用分布式系统或者并行计算来解决问题,所以才来请教
的呀。
问我的人什么提示也没给,但我知道他们做的东西和grid computing, cloud
computing, hadoop, Hbase, Spark什么的有关。

【在 o****n 的大作中提到】
: 你这个问题听起来更像分布式系统或者并行计算的问题
avatar
j*n
9
Sensor stream can be sharded. Check out aws kinesis.

【在 m******h 的大作中提到】
: 是啊,我以为hadoop什么的就是用分布式系统或者并行计算来解决问题,所以才来请教
: 的呀。
: 问我的人什么提示也没给,但我知道他们做的东西和grid computing, cloud
: computing, hadoop, Hbase, Spark什么的有关。

avatar
m*h
10
问个大数据的问题,
假设我有一个sensor,接受streaming data, 数据进来以后就process(一些general
的 signal processing, filtering, feature extracting), 目的是anormaly
detection, 所以输出是whether or not abormaly is detected. 这些是算法问题,可
以解决。
现在的问题是如果我有1 million 这样的sensor, 相互之间是独立的,每个sensor
streaming进来自己的data, 同样的data processing 算法来对它自己收到的data 做
anormaly detection。
怎么才能让这个big data 问题最优化? 怎么设计系统和平行算法?
我本人做算法,不是data scientist, 所以请教大牛们! 谢谢!
avatar
T*u
11
sensor独立是什么意思?sensor探测到的data相互独立吗?
avatar
m*h
12
是的,就是假设sensor探测到的data相互独立。信号处理算法只处理自己的sensor
data,不存在depend on data from other sensors.
谢谢!

【在 T*****u 的大作中提到】
: sensor独立是什么意思?sensor探测到的data相互独立吗?
avatar
l*n
13
你要最优化什么?因为如果你的streaming data是连续的,那你的负载就完全均衡,假
设你有100个nodes,那就每个node处理10k的 sensor的data。
没啥可设计的

【在 m******h 的大作中提到】
: 问个大数据的问题,
: 假设我有一个sensor,接受streaming data, 数据进来以后就process(一些general
: 的 signal processing, filtering, feature extracting), 目的是anormaly
: detection, 所以输出是whether or not abormaly is detected. 这些是算法问题,可
: 以解决。
: 现在的问题是如果我有1 million 这样的sensor, 相互之间是独立的,每个sensor
: streaming进来自己的data, 同样的data processing 算法来对它自己收到的data 做
: anormaly detection。
: 怎么才能让这个big data 问题最优化? 怎么设计系统和平行算法?
: 我本人做算法,不是data scientist, 所以请教大牛们! 谢谢!

avatar
T*u
14
你要设计啥啊?是试图用最少的机器来handle anormaly吗?
avatar
m*h
15
谢谢上面两位的回答。我不是data scientist, 所以问的可能太general。
我知道肯定得distributed,但比如说怎么决定是100,还是1000 nodes,哪个更好?
1000 个nodes肯定更快,但有什么缺点? (数据传输?)
从data science 的角度, 怎么个分析处理这样的问题呢? 这是别人问我的一个open
问题,不是让我说个答案, 而是让我想想从仅仅处理一个sensor, 到要处理million 个
,怎么解决这个问题。
谢谢
avatar
o*n
16
你这个问题听起来更像分布式系统或者并行计算的问题
avatar
m*h
17
是啊,我以为hadoop什么的就是用分布式系统或者并行计算来解决问题,所以才来请教
的呀。
问我的人什么提示也没给,但我知道他们做的东西和grid computing, cloud
computing, hadoop, Hbase, Spark什么的有关。

【在 o****n 的大作中提到】
: 你这个问题听起来更像分布式系统或者并行计算的问题
avatar
j*n
18
Sensor stream can be sharded. Check out aws kinesis.

【在 m******h 的大作中提到】
: 是啊,我以为hadoop什么的就是用分布式系统或者并行计算来解决问题,所以才来请教
: 的呀。
: 问我的人什么提示也没给,但我知道他们做的东西和grid computing, cloud
: computing, hadoop, Hbase, Spark什么的有关。

avatar
m*h
19
谢谢! 简单看了一下,好像 aws kinesis 解决这个问题很有用。 深入学习中......

【在 j*******n 的大作中提到】
: Sensor stream can be sharded. Check out aws kinesis.
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。