big data怎么搞定商业报表？ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

big data怎么搞定商业报表？

big data怎么搞定商业报表？# Programming - 葵花宝典

O*k2013-04-17 07:04

1 楼

比如我转给我朋友，不进入交易市场

h*i2013-04-17 07:04

2 楼

这版上工作好象９５％都是做code地。。。。

R*h2013-04-17 07:04

3 楼

我在mitbbs江湖已经有2年多了，见过的有很多高手和很多马甲。我见过的大内高手品
德最好的有yrh ocean brok tianqiang mianmian TL 他们几个都是很好说话的人，大
概来说就是很小发脾气的。和他们在一起总感觉的很自由的感觉。
t9 jj 100 viza yrh xiuxiu xj kobe pf 都是我的哥们，感觉和他们说话不用那么顾及他们感受，当然了他们是明白我就是在打打闹闹而已。
beibei是大姐，这个不用说了。
alu嘛，我就当她也是我的大姐了，不知道她认不认我这个小弟。很喜欢看alu的灌水贴
总是呵呵哈哈的很开心的感觉看多了也就跟着开心了
我和a0zu妹妹就是喜欢打打闹闹，有时候调气她一下还是很好玩的，感觉那样不会那么无聊。他就好像我的妹妹一样。
yrh-人品好游戏也很好
brok-人品好游戏也很好
tianqiang-人品好游戏也很好
mianmian-人品好游戏也很好，马甲男有时候输给他也不知道那个人姓甚名谁
TL-人品好游戏也很好
ocean-人品好游戏也很好
littlepig-人品好游戏也很好的猪～～
t9-说起他就觉得骂

q*r2013-04-17 07:04

4 楼

贴几张图

W*e2013-04-17 07:04

5 楼

没有流行的reporting tool或者BI系统可以直接使用?
每个商业报表都得从Java/Erlang/等等程序写起？

T*P2013-04-17 07:04

6 楼

比较难，除非你是大宗交易。

比如我转给我朋友，不进入交易市场

【在 O*******k 的大作中提到】

: 比如我转给我朋友，不进入交易市场

c*e2013-04-17 07:04

7 楼

从你的贴子内容看出你是文科女，逻辑性不强。

t*t2013-04-17 07:04

8 楼

先re再看

顾及他们感受，当然了他们是明白我就
是在打打闹闹而已。
么无聊。他就好像我的妹妹一样。

【在 R***h 的大作中提到】

: 我在mitbbs江湖已经有2年多了，见过的有很多高手和很多马甲。我见过的大内高手品
: 德最好的有yrh ocean brok tianqiang mianmian TL 他们几个都是很好说话的人，大
: 概来说就是很小发脾气的。和他们在一起总感觉的很自由的感觉。
: t9 jj 100 viza yrh xiuxiu xj kobe pf 都是我的哥们，感觉和他们说话不用那么顾及他们感受，当然了他们是明白我就是在打打闹闹而已。
: beibei是大姐，这个不用说了。
: alu嘛，我就当她也是我的大姐了，不知道她认不认我这个小弟。很喜欢看alu的灌水贴
: 总是呵呵哈哈的很开心的感觉看多了也就跟着开心了
: 我和a0zu妹妹就是喜欢打打闹闹，有时候调气她一下还是很好玩的，感觉那样不会那么无聊。他就好像我的妹妹一样。
: yrh-人品好游戏也很好
: brok-人品好游戏也很好

h*o2013-04-17 07:04

9 楼

第一张最好看，后两张好像一样

【在 q******r 的大作中提到】

: 贴几张图

t*a2013-04-17 07:04

10 楼

传统的open source BI系统有birt之类的工具，但没听说它们可以处理hadoop数据接口。
同时，hadoop这玩意不能拿来做实时的查询，因为从提交一个job到等结果出来要好久。
看到的一般是拿hadoop去解析log/做aggregation metrics到本地ETL，然后，用传统的
方法，做个BI的前端。
但也听说google有新的技术可以做“实时”的大数据计算，号称要淘汰掉map-reduce。
有人知道吗？

l*r2013-04-17 07:04

11 楼

好像可以捐献，这样可以避税

【在 O*******k 的大作中提到】

: 比如我转给我朋友，不进入交易市场

a*t2013-04-17 07:04

12 楼

从贴子内容看出你很 mean

【在 c*****e 的大作中提到】

: 从你的贴子内容看出你是文科女，逻辑性不强。

q*r2013-04-17 07:04

13 楼

大师兄什么眼神啊，差这么多......

【在 h*********o 的大作中提到】

: 第一张最好看，后两张好像一样

b*e2013-04-17 07:04

14 楼

bigquery? Nahhhhhh ...

口。
久。

【在 t****a 的大作中提到】

: 传统的open source BI系统有birt之类的工具，但没听说它们可以处理hadoop数据接口。
: 同时，hadoop这玩意不能拿来做实时的查询，因为从提交一个job到等结果出来要好久。
: 看到的一般是拿hadoop去解析log/做aggregation metrics到本地ETL，然后，用传统的
: 方法，做个BI的前端。
: 但也听说google有新的技术可以做“实时”的大数据计算，号称要淘汰掉map-reduce。
: 有人知道吗？

j*t2013-04-17 07:04

15 楼

应该是可以的，但一样是要交税啥的
转给直系亲属可免税

【在 O*******k 的大作中提到】

: 比如我转给我朋友，不进入交易市场

x*h2013-04-17 07:04

16 楼

发回帖子的都是闲人，能上网的，所以coder多，恩。。。

b*e2013-04-17 07:04

17 楼

前两张很真实，第三张像电脑做出来的3D效果。

【在 q******r 的大作中提到】

: 贴几张图

N*n2013-04-17 07:04

18 楼

HADOOP就一大忽悠，MR ENGINE狂慢，只能做OFFLINE HISTORICAL DATA分析。
到了商业市场上人家都要LOW LATENCY BI. 要YesSql不要NoSql，所以MR被
淘汰换类似RELATIONAL DB ENGINE是必然。

【在 t****a 的大作中提到】

kx2013-04-17 07:04

19 楼

具体怎么操作啊？

【在 j****t 的大作中提到】

: 应该是可以的，但一样是要交税啥的
: 转给直系亲属可免税

Z*l2013-04-17 07:04

20 楼

现在写code就和当年进办公室一定要会用打字机一样，是不论专业都需要的基本手段了
吧。

【在 h**i 的大作中提到】

: 这版上工作好象９５％都是做code地。。。。

q*r2013-04-17 07:04

21 楼

ms是站在树下往上拍的~~

【在 b***e 的大作中提到】

: 前两张很真实，第三张像电脑做出来的3D效果。

t*a2013-04-17 07:04

22 楼

MR不是用来做instant query的。它的长处在于处理TB level甚至更多的数据，而且可
以比较容易的对付unstructed的数据，它本身又很容易scale，这些事情传统的sql db
做不了。
他跟sql db更像是在一条线上的, sql db consume MR出来的结果。

【在 N********n 的大作中提到】

:
: HADOOP就一大忽悠，MR ENGINE狂慢，只能做OFFLINE HISTORICAL DATA分析。
: 到了商业市场上人家都要LOW LATENCY BI. 要YesSql不要NoSql，所以MR被
: 淘汰换类似RELATIONAL DB ENGINE是必然。

s*h2013-04-17 07:04

23 楼

dark pool?

h*o2013-04-17 07:04

24 楼

后两张颜色一样，感觉一个是近景一个是远景而已，不是吗？btw，大师兄不敢当，俺不
一定比你入学早啊，叫大师就行了

【在 q******r 的大作中提到】

: 大师兄什么眼神啊，差这么多......

g*g2013-04-17 07:04

25 楼

扯蛋吧，大部分BI还不是一天出一个报表，还实时，你以为是股票交易系统？
婚介网站上千万用户，每天扔AWS上算一次配对，就是个典型的Hadoop应用。
有Silverlight在前，你是大忽悠才是真的。

【在 N********n 的大作中提到】

q*r2013-04-17 07:04

26 楼

明显不是一种花；
你不是自称星宿派大师兄么，好歹要卖个面子喊一声。

俺不

【在 h*********o 的大作中提到】

: 后两张颜色一样，感觉一个是近景一个是远景而已，不是吗？btw，大师兄不敢当，俺不
: 一定比你入学早啊，叫大师就行了

n*t2013-04-17 07:04

27 楼

本来map-reduce就是一个大白话。。。处理的东西就是些trivial的事情，不过这年头
就有那么多数据分析业务，所以也能搞这么火。

口。
久。

【在 t****a 的大作中提到】

h*o2013-04-17 07:04

28 楼

哈哈，面子还是其次的，我更关心包子。那到底是哪两种花呢，还有第一种看起来非常
好看。可是也不知道是什么花，我比较花“痴”

【在 q******r 的大作中提到】

: 明显不是一种花；
: 你不是自称星宿派大师兄么，好歹要卖个面子喊一声。
:
: 俺不

g*g2013-04-17 07:04

29 楼

mapreduce就是大cluster处理big data。技术含量就在于分配处理大数据和出错恢复的
能力。
嘛东西单机处理都简单，一旦几百上千个结点并行跑起来，问题就多了。

【在 n******t 的大作中提到】

: 本来map-reduce就是一个大白话。。。处理的东西就是些trivial的事情，不过这年头
: 就有那么多数据分析业务，所以也能搞这么火。
:
: 口。
: 久。

q*r2013-04-17 07:04

30 楼

第一张是油菜花。
后面的不清楚；有人说第三张是木棉，我觉得像木兰，不知道...

【在 h*********o 的大作中提到】

: 哈哈，面子还是其次的，我更关心包子。那到底是哪两种花呢，还有第一种看起来非常
: 好看。可是也不知道是什么花，我比较花“痴”

N*n2013-04-17 07:04

31 楼

大多数个头啊。现在市面上各家HADOOP公司有的换类RMDB ENGINE，有的做
IN-MEMORY HADOOP，目标都是提速REAL-TIME。你个傻逼跳出来独树一帜，
做个分析死老慢还自以为有理。你丫一贯不懂装懂，什么WORKDAY, ZYNGA
之类的笑料拿出来忽悠结果丢人现眼。
http://www.zdnet.com/cloudera-aims-to-bring-real-time-queries-t
http://www.zdnet.com/real-time-hadoop-analytics-scaleout-turns-

【在 g*****g 的大作中提到】

: 扯蛋吧，大部分BI还不是一天出一个报表，还实时，你以为是股票交易系统？
: 婚介网站上千万用户，每天扔AWS上算一次配对，就是个典型的Hadoop应用。
: 有Silverlight在前，你是大忽悠才是真的。

c*42013-04-17 07:04

32 楼

Dislike the first one...
Prefer the second pic.

w*g2013-04-17 07:04

33 楼

商业报表明明是SQL的事情, 也不是数据量一大就不能用SQL了.

【在 W*******e 的大作中提到】

: 没有流行的reporting tool或者BI系统可以直接使用?
: 每个商业报表都得从Java/Erlang/等等程序写起？

h*o2013-04-17 07:04

34 楼

嗯，第一张好看就好看在中间有一条小路。后两张乍一看还以为桃花呢，我不喜欢桃花

【在 q******r 的大作中提到】

: 第一张是油菜花。
: 后面的不清楚；有人说第三张是木棉，我觉得像木兰，不知道...

W*e2013-04-17 07:04

35 楼

NoSQL数据库
现在的初步想法是加一层SQL数据库存放中间的分析数据，前端还是用传统BI

【在 w***g 的大作中提到】

: 商业报表明明是SQL的事情, 也不是数据量一大就不能用SQL了.

h*o2013-04-17 07:04

36 楼

后两张都美的不真实，第一张很好，很油菜。

【在 c*****4 的大作中提到】

: Dislike the first one...
: Prefer the second pic.

g*g2013-04-17 07:04

37 楼

你丫傻逼还傻逼出极品来了。要提速Hadoop是不错，这个叫技术改进。有哪个说Hadoop
不行，我还是回去用SQL Server吗？SQL Server根本就处理不了这个级别的数据。
这个叫做趋势，微软日渐式微，你在这里跳脚有屁用。

【在 N********n 的大作中提到】

:
: 大多数个头啊。现在市面上各家HADOOP公司有的换类RMDB ENGINE，有的做
: IN-MEMORY HADOOP，目标都是提速REAL-TIME。你个傻逼跳出来独树一帜，
: 做个分析死老慢还自以为有理。你丫一贯不懂装懂，什么WORKDAY, ZYNGA
: 之类的笑料拿出来忽悠结果丢人现眼。
: http://www.zdnet.com/cloudera-aims-to-bring-real-time-queries-t
: http://www.zdnet.com/real-time-hadoop-analytics-scaleout-turns-

N*i2013-04-17 07:04

38 楼

不错不错，特别是第一张
第一张能把上面的绿色部分去掉，会给人一种无穷无尽的感觉, 也许更好一些
第二章没有对比度
第三张 ps的吧，从树下往上照，天空为什么是这个颜色呢？

c*e2013-04-17 07:04

39 楼

很多还都是把aggregated以后的数据放回relational DB用传统的方式出报表。
有的情况放在nosql数据库里面也就够了。比如geo的数据，一些visulization,每一步
都是简单的key查找，不需要关系数据库那么重的东西。
hadoop是比较慢，这些map reduce的系统都比较慢。实时的系统idea也差不多，关键是
在node level更有效的filtering,不但是query optimization,存储的结构也要改，像
是列存储，不同的值cluster在不同的file chunk里面。但是不管怎么样，你都必须有
global的aggregation,这个很麻烦。counter之类的还可以预处理。要是GROUP BY你是
绕不过去的。In-memory还有10G network能让这些变快些。
map-reduce系统加类SQL还有一个很大的问题，关于图的算法效率都很低，不是对所有
算法都适用。
Hadoop对于很多应用也是过于笨重，现在很多ML的算法都开始强调realtime, light
weight.象典型的recommendation,新出的startup好几家都是直接写的from scratch
realtime。比常见的弄个hadoop跑个collaborative filtering快很多倍。

f*g2013-04-17 07:04

40 楼

路过，留个爪，呵呵。
第一张的油菜花田好像梵高的某幅画里的麦田（without the crows）
第二张像梅花，或者不是？
第三张难道不是桃花？

【在 q******r 的大作中提到】

: 贴几张图

g*g2013-04-17 07:04

41 楼

MapReduce is not holygrail. And there's no holygrail. But it's a generic
tool that can help solve many problems. That's what a good framework is.

【在 c****e 的大作中提到】

: 很多还都是把aggregated以后的数据放回relational DB用传统的方式出报表。
: 有的情况放在nosql数据库里面也就够了。比如geo的数据，一些visulization,每一步
: 都是简单的key查找，不需要关系数据库那么重的东西。
: hadoop是比较慢，这些map reduce的系统都比较慢。实时的系统idea也差不多，关键是
: 在node level更有效的filtering,不但是query optimization,存储的结构也要改，像
: 是列存储，不同的值cluster在不同的file chunk里面。但是不管怎么样，你都必须有
: global的aggregation,这个很麻烦。counter之类的还可以预处理。要是GROUP BY你是
: 绕不过去的。In-memory还有10G network能让这些变快些。
: map-reduce系统加类SQL还有一个很大的问题，关于图的算法效率都很低，不是对所有
: 算法都适用。

u*s2013-04-17 07:04

42 楼

好看

【在 q******r 的大作中提到】

: 贴几张图

N*n2013-04-17 07:04

43 楼

HADOOP强在BATCH PROCESSING和海量STORAGE，这里讨论的是BI，要求LOW
LATENCY，要求YesSql。你那"每天只能跑一个婚介"的MR就是慢泥巴上不了
墙，也就是给传统BI系统当个STAGING STORAGE而已，你跟我死撑顶茄子毛
用。整天捧着HADOOP大忽悠吹得包山包海，被揭底了就出来大喊大叫。

【在 g*****g 的大作中提到】

: 你丫傻逼还傻逼出极品来了。要提速Hadoop是不错，这个叫技术改进。有哪个说Hadoop
: 不行，我还是回去用SQL Server吗？SQL Server根本就处理不了这个级别的数据。
: 这个叫做趋势，微软日渐式微，你在这里跳脚有屁用。

g*g2013-04-17 07:04

44 楼

尼玛你每次被打脸就满地撒泼。Hadoop又不是瑞士军刀，不需要什么都能做。
没有Hadoop先处理了海量数据生成了中间结果，哪来的数据让你做BI。
你丫觉得Hadoop是忽悠，你们微软自宫了自己的Linq2HPC，涎着脸上Hadoop，
有种你到是先反出微软。最看不起的就是你们软毛又做婊子又立牌坊。
有Silverlight在前，你小还有脸在这个版上说别人忽悠。

【在 N********n 的大作中提到】

:
: HADOOP强在BATCH PROCESSING和海量STORAGE，这里讨论的是BI，要求LOW
: LATENCY，要求YesSql。你那"每天只能跑一个婚介"的MR就是慢泥巴上不了
: 墙，也就是给传统BI系统当个STAGING STORAGE而已，你跟我死撑顶茄子毛
: 用。整天捧着HADOOP大忽悠吹得包山包海，被揭底了就出来大喊大叫。

N*n2013-04-17 07:04

45 楼

我靠，你丫当初不是NBHH扬言NOSQL要取代ORACLE和SQL SERVER吗？既然
都取代了BI就该自力更生了，怎么还要回头请RMDB出手？我当时就指出你
那是不懂数据平台扯淡，尼玛还跟老子抬杠。现在又甩手扇自己一个大嘴
巴改口"不需要什么都能做"。你丫脸皮厚不怕，别人还嫌吵呢。
微软早就有COSMOS这种工具了，换HADOOP只是统一和市面上接口而已。微
软从没讲过取代RMDB这种蠢话。都是你这种整天忽悠WORKDAY, ZYNGA的放
这种山炮。

【在 g*****g 的大作中提到】

: 尼玛你每次被打脸就满地撒泼。Hadoop又不是瑞士军刀，不需要什么都能做。
: 没有Hadoop先处理了海量数据生成了中间结果，哪来的数据让你做BI。
: 你丫觉得Hadoop是忽悠，你们微软自宫了自己的Linq2HPC，涎着脸上Hadoop，
: 有种你到是先反出微软。最看不起的就是你们软毛又做婊子又立牌坊。
: 有Silverlight在前，你小还有脸在这个版上说别人忽悠。

g*g2013-04-17 07:04

46 楼

你丫原来不懂NoSQL是Not Only SQL的词头？还成天YesSQL呢。你不懂不是你的错，非
要出来
丢人就是你的不对了。

【在 N********n 的大作中提到】

:
: 我靠，你丫当初不是NBHH扬言NOSQL要取代ORACLE和SQL SERVER吗？既然
: 都取代了BI就该自力更生了，怎么还要回头请RMDB出手？我当时就指出你
: 那是不懂数据平台扯淡，尼玛还跟老子抬杠。现在又甩手扇自己一个大嘴
: 巴改口"不需要什么都能做"。你丫脸皮厚不怕，别人还嫌吵呢。
: 微软早就有COSMOS这种工具了，换HADOOP只是统一和市面上接口而已。微
: 软从没讲过取代RMDB这种蠢话。都是你这种整天忽悠WORKDAY, ZYNGA的放
: 这种山炮。

c*e2013-04-17 07:04

47 楼

I am not saying it's bad or good. It's just better to know the pros and cons
before making decisions on technology choice.
On the other hand the demand is always pushing technology forward. Big data
processing techniques are evolving in a fast pace.

【在 g*****g 的大作中提到】

: MapReduce is not holygrail. And there's no holygrail. But it's a generic
: tool that can help solve many problems. That's what a good framework is.

w*z2013-04-17 07:04

48 楼

we are using Hadoop to proceess scribe log and feed the results to BI db
hourly /daily.

【在 W*******e 的大作中提到】

: 没有流行的reporting tool或者BI系统可以直接使用?
: 每个商业报表都得从Java/Erlang/等等程序写起？

f*p2013-04-17 07:04

49 楼

Google那玩意叫Dremel. 人可没说要取代MapReduce, 说的是和MapReduce互补。对应的
开源项目是Apache Drill. 不过那玩意我听一个老印忽悠过，八字还没有一撇。
很多BI没有实时要求，一天或者一小时跑一次，所以用Hadoop没有什么问题。Hadoop代
码写好了，比基于postgresql的数据仓库快个几倍，但快不了一个量级。要玩交互式BI
，得在中间再加一层MySQL。

口。
久。

【在 t****a 的大作中提到】

z*32013-04-17 07:04

50 楼

big data很多产品本身就是牺牲精度提升效率的产物
这种前提下，就算出了一个报表，也不应该过份苛求精度
大多数big data的报表都是提供个模糊印象
同理，这个前提下搞实时就有些扯了，当然不是不行
但是这种精度下，还不如回头去用db，如果transaction搞定不了，上mainframe
当然我不反对两个结合起来一起用

【在 w***g 的大作中提到】

: 商业报表明明是SQL的事情, 也不是数据量一大就不能用SQL了.

z*32013-04-17 07:04

51 楼

所以说统计又开始火爆了
我说怎么jobhunting那边一堆cs面经里面老遇见统计题

【在 n******t 的大作中提到】

: 本来map-reduce就是一个大白话。。。处理的东西就是些trivial的事情，不过这年头
: 就有那么多数据分析业务，所以也能搞这么火。
:
: 口。
: 久。

B*i2013-04-17 07:04

52 楼

vertica ?

【在 c****e 的大作中提到】

B*g2013-04-17 07:04

53 楼

大牛都能making decision了，赞一个

cons
data

【在 c****e 的大作中提到】

: I am not saying it's bad or good. It's just better to know the pros and cons
: before making decisions on technology choice.
: On the other hand the demand is always pushing technology forward. Big data
: processing techniques are evolving in a fast pace.

l*t2013-04-17 07:04

54 楼

你说的big data是hadoop/hdfs吗? 一般的处理都是需要倒到一个rmdb里边然后用传统
的bi reporting,现在也有一些bi工具能直接连hadoop, 比如pentaho, 不过易用性非常
的差.
不过big data只是数据多, 但是是structure data, 就直接上data warehouse.

【在 W*******e 的大作中提到】

: 没有流行的reporting tool或者BI系统可以直接使用?
: 每个商业报表都得从Java/Erlang/等等程序写起？

l*t2013-04-17 07:04

55 楼

现在的hadoop基本上不能handle real time的, 还是rmdb好用, 99%的情况rmdb也够用了

【在 z*******3 的大作中提到】

: big data很多产品本身就是牺牲精度提升效率的产物
: 这种前提下，就算出了一个报表，也不应该过份苛求精度
: 大多数big data的报表都是提供个模糊印象
: 同理，这个前提下搞实时就有些扯了，当然不是不行
: 但是这种精度下，还不如回头去用db，如果transaction搞定不了，上mainframe
: 当然我不反对两个结合起来一起用

l*t2013-04-17 07:04

56 楼

对于99%的传统非互联网公司来说, hadoop没有什么用, 哪有那么多的unstructure
data来处理, 上 mpp才是正道. hadoop现在基本上还是弯曲的internet 公司在用, 然
后就是一堆堆的start up用来骗funding.

【在 n******t 的大作中提到】

: 本来map-reduce就是一个大白话。。。处理的东西就是些trivial的事情，不过这年头
: 就有那么多数据分析业务，所以也能搞这么火。
:
: 口。
: 久。

c*y2013-04-17 07:04

57 楼

不处理但可以通过hive access
http://www.eclipse.org/birt/phoenix/project/notable3.7.php#jump

口。
久。

【在 t****a 的大作中提到】

z*32013-04-17 07:04

58 楼

嗯，同意

【在 l******t 的大作中提到】

: 对于99%的传统非互联网公司来说, hadoop没有什么用, 哪有那么多的unstructure
: data来处理, 上 mpp才是正道. hadoop现在基本上还是弯曲的internet 公司在用, 然
: 后就是一堆堆的start up用来骗funding.

N*n2013-04-17 07:04

59 楼

Exactly. A nosql platform might be able to store a huge amount of
"data" but data is only useful if you are able analyze it fast
enough. If you cannot then you only have a big pile of useless
data, or frankly junk.

【在 l******t 的大作中提到】