Redian新闻
>
请问搭建一个类似IBM I2或者palantir的分析平台需要多少人?
avatar
请问搭建一个类似IBM I2或者palantir的分析平台需要多少人?# Programming - 葵花宝典
r*3
1
现在国内一个企业联系我想让我帮忙组一个团队做一个类似IBM I2或者palantir
那样的企业级别大数据可视化分析平台.
主要数据类型文本数据,soical network,以及高维数据,要求能够处理streaming data
他们想要个轻量级的平台主要服务于内部,整合和分析数据
对外的客户端有专门的另一批人做,他们的产品是基于我们的分析结果
现在数据和数据库之类的底层都是ready的
我本身是专做前台可视化分析和产品设计的,后台懂一些,自己搭建过简单的分析应用.
但是这种大的项目和组建团队没什么经验.我现在对团队的想法:
后台
文本处理分析,NLP,text mining 1人
machine learning, data mining (graph, multi-dimensional) 1人
后台架构,编程 2人
数据库处理, streaming engine 1人
前台
应用架构及网页编程 1-2人
分析应用1人(我)
UI UX设计 1人
希望有经验的人给点建议,谢谢!
avatar
x*4
2
老中真惨,10个人的team要干几百人的公司的活。先多找一些budget吧。

data

【在 r********3 的大作中提到】
: 现在国内一个企业联系我想让我帮忙组一个团队做一个类似IBM I2或者palantir
: 那样的企业级别大数据可视化分析平台.
: 主要数据类型文本数据,soical network,以及高维数据,要求能够处理streaming data
: 他们想要个轻量级的平台主要服务于内部,整合和分析数据
: 对外的客户端有专门的另一批人做,他们的产品是基于我们的分析结果
: 现在数据和数据库之类的底层都是ready的
: 我本身是专做前台可视化分析和产品设计的,后台懂一些,自己搭建过简单的分析应用.
: 但是这种大的项目和组建团队没什么经验.我现在对团队的想法:
: 后台
: 文本处理分析,NLP,text mining 1人

avatar
g*t
3
这个取决于目标客户是谁。要求有多高。
楼主的安排不一定不合理。


: 老中真惨,10个人的team要干几百人的公司的活。先多找一些budget吧。

: data



【在 x***4 的大作中提到】
: 老中真惨,10个人的team要干几百人的公司的活。先多找一些budget吧。
:
: data

avatar
w*g
4
技术上来说几百人都是打酱油的。

【在 x***4 的大作中提到】
: 老中真惨,10个人的team要干几百人的公司的活。先多找一些budget吧。
:
: data

avatar
r*3
5
我没说清楚,
他们想要个轻量级的平台
主要服务于内部,整合和分析数据
对外的客户端有专门的另一批人做
他们的产品是基于我们的分析结果

【在 x***4 的大作中提到】
: 老中真惨,10个人的team要干几百人的公司的活。先多找一些budget吧。
:
: data

avatar
r*3
6
我之前加入过一个做cloud-based BI的初创团队
大概就是7,8个人
产品release时大概就是这些人做的
现在算上sales, marketing这些已经有40多个人了

【在 w***g 的大作中提到】
: 技术上来说几百人都是打酱油的。
avatar
g*t
7
如果是内部工具。
理论上来讲1,2个人就可以了。
内部用不需要网页视图。避免了麻烦的网页架构。
算法和数据分析做的好的,没有人不懂数据可视化的,
但不一定走网页。做算法的人自己做图就完事了。
比较麻烦的是streaming data.
懂recursive 算法处理的人很少。多数ML都是batch处理。


: 我没说清楚,

: 他们想要个轻量级的平台

: 主要服务于内部,整合和分析数据

: 对外的客户端有专门的另一批人做

: 他们的产品是基于我们的分析结果



【在 r********3 的大作中提到】
: 我之前加入过一个做cloud-based BI的初创团队
: 大概就是7,8个人
: 产品release时大概就是这些人做的
: 现在算上sales, marketing这些已经有40多个人了

avatar
g*t
8
他这个是内部工具。我看1,2人就可以了。
只是处理数据,输入输出相对来说是规范的。
用户也不可能很多。
不要弄成12306买火车票的结构就好。


: 我之前加入过一个做cloud-based BI的初创团队

: 大概就是7,8个人

: 产品release时大概就是这些人做的

: 现在算上sales, marketing这些已经有40多个人了



【在 r********3 的大作中提到】
: 我之前加入过一个做cloud-based BI的初创团队
: 大概就是7,8个人
: 产品release时大概就是这些人做的
: 现在算上sales, marketing这些已经有40多个人了

avatar
r*3
9
"内部用不需要网页视图。避免了麻烦的网页架构"
内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算法辅助(走的
palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依赖智能算法,
再好的算法也有误差.有效的可视化工具是必不可少的.
"算法和数据分析做的好的,没有人不懂数据可视化的,"
我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...
我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...
但作算法的牛人,我还真没见过会做可视化的
我这里说的可视化不是简单的bar chart, pie chart
要highliy interactive的,而且整合graph, geospatial, temporal和 text
visualization,
而且要把这些可视化部件整合在单独视图,而且要scalable, zoomable, context-aware
, streaming,这些在可视化领域都是open problems,
总不能让analyst用几个pie chart, line chart从几亿数据里面找恐怖分子吧...

【在 g****t 的大作中提到】
: 如果是内部工具。
: 理论上来讲1,2个人就可以了。
: 内部用不需要网页视图。避免了麻烦的网页架构。
: 算法和数据分析做的好的,没有人不懂数据可视化的,
: 但不一定走网页。做算法的人自己做图就完事了。
: 比较麻烦的是streaming data.
: 懂recursive 算法处理的人很少。多数ML都是batch处理。
:
:
: 我没说清楚,
:
: 他们想要个轻量级的平台

avatar
g*t
10
My two cents:
1.
可视化工具不止网页一种。
Excel也是可视化工具,而且还是没有网页视图可比的工具。
Tableau, MS BI等就更多了。
2.
算法要找会开发算法的人。不要找只会实现或者抄已经有的算法的人。
做一个新算法,数据不知要看多少遍,不知要画多少各种
图。能自己开发ML算法的人,不会画图是不可能的,没有自己的画图tool chain也是很
难的。
现有的算法Streaming data的算法很少,懂的人更少,good luck


: "内部用不需要网页视图。避免了麻烦的网页架构"

: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算
法辅助(
走的

: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依
赖智能
算法,

: 再好的算法也有误差.有效的可视化工具是必不可少的.

: "算法和数据分析做的好的,没有人不懂数据可视化的,"

: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...

: 作算法的牛人,我还真没见过会做可视化的

: 我这里说的可视化不是简单的bar chart, pie chart

: 要highliy interactive的,而且整合graph, geospatial, temporal和
text

: visualization,



【在 r********3 的大作中提到】
: "内部用不需要网页视图。避免了麻烦的网页架构"
: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算法辅助(走的
: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依赖智能算法,
: 再好的算法也有误差.有效的可视化工具是必不可少的.
: "算法和数据分析做的好的,没有人不懂数据可视化的,"
: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...
: 我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...
: 但作算法的牛人,我还真没见过会做可视化的
: 我这里说的可视化不是简单的bar chart, pie chart
: 要highliy interactive的,而且整合graph, geospatial, temporal和 text

avatar
g*t
11
你说的那些特性,在网页里是很难的。
在桌面是简单的,20年前Delphi 就可以做地理信息系统了。
时至今日,Lazarus free
pascal还有屌丝继续这么干呢。vb 6也有一批。


: "内部用不需要网页视图。避免了麻烦的网页架构"

: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算
法辅助(
走的

: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依
赖智能
算法,

: 再好的算法也有误差.有效的可视化工具是必不可少的.

: "算法和数据分析做的好的,没有人不懂数据可视化的,"

: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...

: 我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...

: 但作算法的牛人,我还真没见过会做可视化的

: 我这里说的可视化不是简单的bar chart, pie chart

: 要highliy interactive的,而且整合graph, geospatial, temporal和
text



【在 r********3 的大作中提到】
: "内部用不需要网页视图。避免了麻烦的网页架构"
: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算法辅助(走的
: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依赖智能算法,
: 再好的算法也有误差.有效的可视化工具是必不可少的.
: "算法和数据分析做的好的,没有人不懂数据可视化的,"
: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...
: 我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...
: 但作算法的牛人,我还真没见过会做可视化的
: 我这里说的可视化不是简单的bar chart, pie chart
: 要highliy interactive的,而且整合graph, geospatial, temporal和 text

avatar
r*3
12
算法肯定能自己开发的最好
不过国内企业界不知道有多少有这种实力的人

【在 g****t 的大作中提到】
: My two cents:
: 1.
: 可视化工具不止网页一种。
: Excel也是可视化工具,而且还是没有网页视图可比的工具。
: Tableau, MS BI等就更多了。
: 2.
: 算法要找会开发算法的人。不要找只会实现或者抄已经有的算法的人。
: 做一个新算法,数据不知要看多少遍,不知要画多少各种
: 图。能自己开发ML算法的人,不会画图是不可能的,没有自己的画图tool chain也是很
: 难的。

avatar
w*z
13
直接外包给 wdong

data

【在 r********3 的大作中提到】
: 现在国内一个企业联系我想让我帮忙组一个团队做一个类似IBM I2或者palantir
: 那样的企业级别大数据可视化分析平台.
: 主要数据类型文本数据,soical network,以及高维数据,要求能够处理streaming data
: 他们想要个轻量级的平台主要服务于内部,整合和分析数据
: 对外的客户端有专门的另一批人做,他们的产品是基于我们的分析结果
: 现在数据和数据库之类的底层都是ready的
: 我本身是专做前台可视化分析和产品设计的,后台懂一些,自己搭建过简单的分析应用.
: 但是这种大的项目和组建团队没什么经验.我现在对团队的想法:
: 后台
: 文本处理分析,NLP,text mining 1人

avatar
r*3
14
这个不可能
数据高度机密
fake data不现实

【在 w**z 的大作中提到】
: 直接外包给 wdong
:
: data

avatar
r*3
15
这个不可能
数据高度机密
fake data不现实

【在 w**z 的大作中提到】
: 直接外包给 wdong
:
: data

avatar
x*4
16
我真的不是在抬杠。我觉得你的产品对人才的要求其实是非常高的,要么找很多中高水
平的人分几个team,一起弄,要么找顶尖高手,两种方法都需要钱。

【在 r********3 的大作中提到】
: "内部用不需要网页视图。避免了麻烦的网页架构"
: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算法辅助(走的
: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依赖智能算法,
: 再好的算法也有误差.有效的可视化工具是必不可少的.
: "算法和数据分析做的好的,没有人不懂数据可视化的,"
: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...
: 我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...
: 但作算法的牛人,我还真没见过会做可视化的
: 我这里说的可视化不是简单的bar chart, pie chart
: 要highliy interactive的,而且整合graph, geospatial, temporal和 text

avatar
w*g
17
guvest太有情怀。
我的建议也是一定要用网页。哪怕是单机程序也要通过embed服务器的方法走网页。
别的呈现技术相比之下都是小众,找轮子,找人,出了问题在stackoverflow上找
解决方案都不方便。
你说的可视化做起来非常罗索,得好这口愿意慢慢扣的才行。算法牛人确实不合适。
初创team也不适合搞新算法。

【在 r********3 的大作中提到】
: "内部用不需要网页视图。避免了麻烦的网页架构"
: 内部肯定需要网页视图,因为即使内部做数据整合分析,也是人为主导,算法辅助(走的
: palantir的路线).他们的应用主要是安全类的,数据量极大,不可能完全依赖智能算法,
: 再好的算法也有误差.有效的可视化工具是必不可少的.
: "算法和数据分析做的好的,没有人不懂数据可视化的,"
: 我觉得这句话说反了吧...好的做可视化的没有不懂数据分析和算法的...
: 我之前做可视化的导师,KDD, ICML, ICDE的会议都发论文...
: 但作算法的牛人,我还真没见过会做可视化的
: 我这里说的可视化不是简单的bar chart, pie chart
: 要highliy interactive的,而且整合graph, geospatial, temporal和 text

avatar
g*t
18
你说的网页的人容易找,这条是对的。但我说的不是情怀,是实际例子。我们半导体公
司内部有很多可视化tool,外部也有给客户用的tool chain. 硬件不少附送光盘的那种
tool也有很多。
凡我提要求给tool组烙印做的tool,他们总要做网页,然后把公司IT的人拉过来,一个
小项目要找十几个人。我经常灭他们。
我就让他们vb,c#,有时候数据交换让他们email 自动化,数据库我都不走。找个
contract几天搞定。一旦走网页还要分用户权限,内部防火墙扯皮,浏览器兼容,数不
清的麻烦事。
另外从技术上来说,之前我在本版问过,一个网页显示7万个点可以互动的time series
都有难度,不是短时间能搞定的。
Local tool资源足,写程序容易。另外我之前问过AA Dallas做线性规划算法的人。他
们的tool 也不是网页。稍微复杂点的可视化他说网页很难搞定。
楼主的需求说了不少buzz words,要互动,地理信息,还要对数据的内容自动改图的显示
方法,如果走
网页太难了。


: guvest太有情怀。

: 我的建议也是一定要用网页。哪怕是单机程序也要通过embed服务器的方
法走网
页。

: 别的呈现技术相比之下都是小众,找轮子,找人,出了问题在
stackoverflow上找

: 解决方案都不方便。

: 你说的可视化做起来非常罗索,得好这口愿意慢慢扣的才行。算法牛人确
实不合
适。

: 初创team也不适合搞新算法。



【在 w***g 的大作中提到】
: guvest太有情怀。
: 我的建议也是一定要用网页。哪怕是单机程序也要通过embed服务器的方法走网页。
: 别的呈现技术相比之下都是小众,找轮子,找人,出了问题在stackoverflow上找
: 解决方案都不方便。
: 你说的可视化做起来非常罗索,得好这口愿意慢慢扣的才行。算法牛人确实不合适。
: 初创team也不适合搞新算法。

avatar
g*t
19
他这段话buzz words太多。比zillow之类的网站不差了。走网页的话,没上百人我看搞
不定。


: 我真的不是在抬杠。我觉得你的产品对人才的要求其实是非常高的,要么找很多
中高水

: 平的人分几个team,一起弄,要么找顶尖高手,两种方法都需要钱。



【在 x***4 的大作中提到】
: 我真的不是在抬杠。我觉得你的产品对人才的要求其实是非常高的,要么找很多中高水
: 平的人分几个team,一起弄,要么找顶尖高手,两种方法都需要钱。

avatar
l*n
20
你这个计划是mission impossible,严重低估这个平台的难度。

data

【在 r********3 的大作中提到】
: 现在国内一个企业联系我想让我帮忙组一个团队做一个类似IBM I2或者palantir
: 那样的企业级别大数据可视化分析平台.
: 主要数据类型文本数据,soical network,以及高维数据,要求能够处理streaming data
: 他们想要个轻量级的平台主要服务于内部,整合和分析数据
: 对外的客户端有专门的另一批人做,他们的产品是基于我们的分析结果
: 现在数据和数据库之类的底层都是ready的
: 我本身是专做前台可视化分析和产品设计的,后台懂一些,自己搭建过简单的分析应用.
: 但是这种大的项目和组建团队没什么经验.我现在对团队的想法:
: 后台
: 文本处理分析,NLP,text mining 1人

avatar
w*z
21
用 tabulea 不行?还得自己搞?

series

【在 g****t 的大作中提到】
: 你说的网页的人容易找,这条是对的。但我说的不是情怀,是实际例子。我们半导体公
: 司内部有很多可视化tool,外部也有给客户用的tool chain. 硬件不少附送光盘的那种
: tool也有很多。
: 凡我提要求给tool组烙印做的tool,他们总要做网页,然后把公司IT的人拉过来,一个
: 小项目要找十几个人。我经常灭他们。
: 我就让他们vb,c#,有时候数据交换让他们email 自动化,数据库我都不走。找个
: contract几天搞定。一旦走网页还要分用户权限,内部防火墙扯皮,浏览器兼容,数不
: 清的麻烦事。
: 另外从技术上来说,之前我在本版问过,一个网页显示7万个点可以互动的time series
: 都有难度,不是短时间能搞定的。

avatar
g*l
22
second this.
what is the downside using tableau for this task? (thinking about doing the
same thing myself)
they should have plenty of money to buy tableau license (or subscription)

【在 w**z 的大作中提到】
: 用 tabulea 不行?还得自己搞?
:
: series

avatar
g*t
23
Tableau 可以get thing done.从最早的spotfire我们都有用。还可以调用接口。但是
这个问题和MS的一样。


: second this.

: what is the downside using tableau for this task? (thinking
about
doing the

: same thing myself)

: they should have plenty of money to buy tableau license (or
subscription)



【在 g**********l 的大作中提到】
: second this.
: what is the downside using tableau for this task? (thinking about doing the
: same thing myself)
: they should have plenty of money to buy tableau license (or subscription)

avatar
w*6
24
tableau只是做传统bi的吧。
让去做反恐,反诈骗,分析几T的文本数据,有用tableau做的么?

the

【在 g**********l 的大作中提到】
: second this.
: what is the downside using tableau for this task? (thinking about doing the
: same thing myself)
: they should have plenty of money to buy tableau license (or subscription)

avatar
g*l
25
这可能要看case by case, requirement 吧
没有人说用要用tableau as backend.
个人对高大上的数据可视化不懂
反恐应该算高大上,但一般应用,真的需要the whole dataset 吗?
分析几T的文本数据,真的store all in memory and interact several TB of data
in real-time ?
觉得一般应用,通过算法/抽样等等在后台处理,aggregate and reduce the data to
*only* that is relevant to the specific business decision needed, then it is
a lot easier and more tools will be able to handle it.
如果杀鸡杀猪,不需要屠龙刀吧
(觉得一般internal team always likes to ask more. would it be nice if they
have everything that they want? of course. do they really need everything
that they ask for their case? often not.)
不过楼主好像要建一个 general purpose 的可视化平台,no specific use-case but
handle everything that people want to do -- that is a whole different story,
and a whole lot money.

【在 w*****6 的大作中提到】
: tableau只是做传统bi的吧。
: 让去做反恐,反诈骗,分析几T的文本数据,有用tableau做的么?
:
: the

avatar
g*t
26
可以用spotfire做可视化前端。分析engine python c#.
我们做过类似的自动化从实验数据出报告。


: 这可能要看case by case, requirement 吧

: 没有人说用要用tableau as backend.

: 个人对高大上的数据可视化不懂

: 反恐应该算高大上,但一般应用,真的需要the whole dataset 吗?

: 分析几T的文本数据,真的store all in memory and interact several
TB of
data

: in real-time ?

: 觉得一般应用,通过算法/抽样等等在后台处理,aggregate and reduce
the
data to

: *only* that is relevant to the specific business decision needed
, then
it is

: a lot easier and more tools will be able to handle it.

: 如果杀鸡杀猪,不需要屠龙刀吧



【在 g**********l 的大作中提到】
: 这可能要看case by case, requirement 吧
: 没有人说用要用tableau as backend.
: 个人对高大上的数据可视化不懂
: 反恐应该算高大上,但一般应用,真的需要the whole dataset 吗?
: 分析几T的文本数据,真的store all in memory and interact several TB of data
: in real-time ?
: 觉得一般应用,通过算法/抽样等等在后台处理,aggregate and reduce the data to
: *only* that is relevant to the specific business decision needed, then it is
: a lot easier and more tools will be able to handle it.
: 如果杀鸡杀猪,不需要屠龙刀吧

avatar
s*y
27
可以展开说说 streaming data, recursive 算法处理吗? 贴个link也行 我很感兴趣
谢谢

【在 g****t 的大作中提到】
: 如果是内部工具。
: 理论上来讲1,2个人就可以了。
: 内部用不需要网页视图。避免了麻烦的网页架构。
: 算法和数据分析做的好的,没有人不懂数据可视化的,
: 但不一定走网页。做算法的人自己做图就完事了。
: 比较麻烦的是streaming data.
: 懂recursive 算法处理的人很少。多数ML都是batch处理。
:
:
: 我没说清楚,
:
: 他们想要个轻量级的平台

avatar
g*t
28
你写个程序算算f(x)=0的根。
x加噪声,0加噪声。就明白了。


: 可以展开说说 streaming data, recursive 算法处理吗? 贴个link也行
我很
感兴趣

: 谢谢



【在 s*********y 的大作中提到】
: 可以展开说说 streaming data, recursive 算法处理吗? 贴个link也行 我很感兴趣
: 谢谢

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。