Redian新闻
>
统计在data science里的地位
avatar
统计在data science里的地位# DataSciences - 数据科学
Y*a
1
是不是特别低?
看到的大部分招工广告里,要么就没提统计,要么是排在最后的专业,是不是说明统计
专业知识在data science里不是很重要?
avatar
z*e
2
现在基建太差,底层基础还在构建当中,现阶段说统计
有点太高级了,等hadoop再进化十年左右
把一些r,sql这些脚本引擎全部搞好并开源
那个时候可能会比较有戏,现在搞big data的多数还是码农
但是统计的应用毕竟是从无到有,硬生生给弄出一块工作机会来
可以了,比起其他行业来说,其他行业干脆是工作机会整个在减少
都被码农给弄的
avatar
g*o
3
re
现在大数据主要是靠攒机搞优化来提高

【在 z****e 的大作中提到】
: 现在基建太差,底层基础还在构建当中,现阶段说统计
: 有点太高级了,等hadoop再进化十年左右
: 把一些r,sql这些脚本引擎全部搞好并开源
: 那个时候可能会比较有戏,现在搞big data的多数还是码农
: 但是统计的应用毕竟是从无到有,硬生生给弄出一块工作机会来
: 可以了,比起其他行业来说,其他行业干脆是工作机会整个在减少
: 都被码农给弄的

avatar
j*n
4
没啥好高深的统计,啥 p value, z-test 就能唬倒一帮人,也就完全足够了.
code code code ~!!! Big Data is all about code and scalability
avatar
S*y
5
yes. Scalability is king.
avatar
c*g
6
呵呵。

【在 j*****n 的大作中提到】
: 没啥好高深的统计,啥 p value, z-test 就能唬倒一帮人,也就完全足够了.
: code code code ~!!! Big Data is all about code and scalability

avatar
d*s
7
Big Data != Data Science
avatar
p*i
8
呵呵 显然不是 不过很多公司里面偏统计的Data Science职位title不一样,比如叫
Quantitative Researcher什么的
avatar
T*u
9
说实话现在统计的地位远不如编程。一个再好的ppt,也远远不如一个客户能用的ugly
product好。编程那块是瓶颈。另外所谓data science偏应用,反而不追求统计上的正
确性。
avatar
l*m
10
可以这样划分。一个是得到每一个sample的成本很高,这样统计就比较重要。另一个是
sample没有附加成本,数据大,cs 比较重要。
还有统计比较被动,给个data, 就做呀做。cs经常会自己去找其他data sources.,比
如抓个网页

【在 Y****a 的大作中提到】
: 是不是特别低?
: 看到的大部分招工广告里,要么就没提统计,要么是排在最后的专业,是不是说明统计
: 专业知识在data science里不是很重要?

avatar
l*n
11
没有ppt你连项目都没有,谈什么product?不追求统计上的正确性,那你追求什么?做
个垃圾?

ugly

【在 T*****u 的大作中提到】
: 说实话现在统计的地位远不如编程。一个再好的ppt,也远远不如一个客户能用的ugly
: product好。编程那块是瓶颈。另外所谓data science偏应用,反而不追求统计上的正
: 确性。

avatar
m*t
12
不是不追求正确性 而是追求最后的结果
classification来说 最后出来结果我关心accuracy/fp/fn
sample一下 看看就知道了 基本不会关心所谓的模型假设条件是什么
所谓黑猫白猫

【在 l******n 的大作中提到】
: 没有ppt你连项目都没有,谈什么product?不追求统计上的正确性,那你追求什么?做
: 个垃圾?
:
: ugly

avatar
c*t
13
纯cs出身的没什么统计训练。统计这东西重要的是基本概念因为统计基本概念大都"
counter-intuitive"。半路出家的没回头好好巩固一下基本概念的会啥都没用。
前些天跟一个UToronto的据说deep learning大牛谈了谈。扯得一b。但基本统计概念全
是错的。还不如一个学得很扎实的科班master
另外fisher体系下有很多东西半理论半heuristic。data size大了确实不好用
再另外如各位班上大牛所云学统计的大都没学过算法优化。而现在业界对这个需求最大
所以至少目前统计在DS里没啥地位
avatar
T*u
14
某些cs算法优化就是统计里面的over fitting。大牛不是hinton吧?

【在 c****t 的大作中提到】
: 纯cs出身的没什么统计训练。统计这东西重要的是基本概念因为统计基本概念大都"
: counter-intuitive"。半路出家的没回头好好巩固一下基本概念的会啥都没用。
: 前些天跟一个UToronto的据说deep learning大牛谈了谈。扯得一b。但基本统计概念全
: 是错的。还不如一个学得很扎实的科班master
: 另外fisher体系下有很多东西半理论半heuristic。data size大了确实不好用
: 再另外如各位班上大牛所云学统计的大都没学过算法优化。而现在业界对这个需求最大
: 所以至少目前统计在DS里没啥地位

avatar
l*n
15

全是错的。
这就是你眼中的“大牛”?是大吹牛吧
还不如一个学得很扎实的科班master

【在 c****t 的大作中提到】
: 纯cs出身的没什么统计训练。统计这东西重要的是基本概念因为统计基本概念大都"
: counter-intuitive"。半路出家的没回头好好巩固一下基本概念的会啥都没用。
: 前些天跟一个UToronto的据说deep learning大牛谈了谈。扯得一b。但基本统计概念全
: 是错的。还不如一个学得很扎实的科班master
: 另外fisher体系下有很多东西半理论半heuristic。data size大了确实不好用
: 再另外如各位班上大牛所云学统计的大都没学过算法优化。而现在业界对这个需求最大
: 所以至少目前统计在DS里没啥地位

avatar
h*3
16
“UToronto的deep learning大牛”。。。。这个亮了!!!应该是说hintonhttp://www.cs.toronto.edu/~hinton/吧。
传说中的扫地僧出现了!

【在 c****t 的大作中提到】
: 纯cs出身的没什么统计训练。统计这东西重要的是基本概念因为统计基本概念大都"
: counter-intuitive"。半路出家的没回头好好巩固一下基本概念的会啥都没用。
: 前些天跟一个UToronto的据说deep learning大牛谈了谈。扯得一b。但基本统计概念全
: 是错的。还不如一个学得很扎实的科班master
: 另外fisher体系下有很多东西半理论半heuristic。data size大了确实不好用
: 再另外如各位班上大牛所云学统计的大都没学过算法优化。而现在业界对这个需求最大
: 所以至少目前统计在DS里没啥地位

avatar
s*h
17
要站队的话我还是站Hinton那边吧
至少觉得他的NN课还挺有料的。

【在 h********3 的大作中提到】
: “UToronto的deep learning大牛”。。。。这个亮了!!!应该是说hintonhttp://www.cs.toronto.edu/~hinton/吧。
: 传说中的扫地僧出现了!

avatar
Y*a
18
没想到这么老的帖子又被翻出来了。呵呵
从统计意义上讲,能用500或5000个数据得出有意义的结论,大家为什么非要用
5000000000个数据折腾一番,花5到10倍的人力物力资源,得到同样的结果呢?
的确有必须要用5000000000个数据的项目,但是并不是所有和Web有关的项目都需要big
data的吧。
avatar
Y*a
19
没想到这么老的帖子又被翻出来了。呵呵
从统计意义上讲,能用500或5000个数据得出有意义的结论,大家为什么非要用
5000000000个数据折腾一番,花5到10倍的人力物力资源,得到同样的结果呢?
的确有必须要用5000000000个数据的项目,但是并不是所有和Web有关的项目都需要big
data的吧。
avatar
j*p
20
统计应该是大数据的高端应用。
目前还处在给高端的数据挖掘和统计收集数据搭架子的阶段。
技术是手段,应用才是目的。
avatar
c*z
21
统计是唱戏的(而且是配角),CS是搭台的
如果这台老是塌,自然CS最重要
反之统计会重要点,但是主角还是MBA
这就是命
avatar
c*z
22
Anyway, the point is
as a worker, 钱多事少离家近
as a manager, 位高权重责任轻
as an owner, 人傻钱多官易饱
everything else is 浮云
avatar
g*o
23
mba是主角,主要是老板不识货。
你看现在zara和hm,搞死多少低端品牌了

【在 c***z 的大作中提到】
: 统计是唱戏的(而且是配角),CS是搭台的
: 如果这台老是塌,自然CS最重要
: 反之统计会重要点,但是主角还是MBA
: 这就是命

avatar
c*z
24
大牛展开说说zara和hm?
老板不识货那也是老板啊,除非你自己做老板,然后你一看,客户全是MBA

【在 g*****o 的大作中提到】
: mba是主角,主要是老板不识货。
: 你看现在zara和hm,搞死多少低端品牌了

avatar
g*o
25
有很多文章讲他们的啊
zara和hm是搞快时尚啊.
之前低端服装和高端服装都是一样的, 每年两季上新, 最多再加两次早春早秋.
zara和hm, 却每个月都出新品, 每次做小批量上货, 而且销售数据全部传回总部进行分
析, 方便下一批次设计调整
反正现在没死的低端服装品牌都想往快时尚方面转, ca, af, gap等等. 但是貌似他们
始终没能赶上zara和hm, 感觉他们只学到了"快", 多上新, 但是没学到数据整合. 销售
没有快速反映在设计上.
其实我是想以后自己当老板, 自己活学活用, 数据怎么算出来的, 可不可信, 自己都知
道. 反正我们家也是干个体的→_→

【在 c***z 的大作中提到】
: 大牛展开说说zara和hm?
: 老板不识货那也是老板啊,除非你自己做老板,然后你一看,客户全是MBA

avatar
c*z
26
多谢指点
我也是想以后自己干
现在能想起来的也只有卖iwatch的表带。。。
avatar
n*3
27
fist of all, with larger dataset, the model should be more stable
and it is hard to take good 500/5k sample out of huge dataset;
and you will have/see more info will the big piture/big data.
5到10倍的物力资源 maybe,
5到10倍的人力, no no...

big

【在 Y****a 的大作中提到】
: 没想到这么老的帖子又被翻出来了。呵呵
: 从统计意义上讲,能用500或5000个数据得出有意义的结论,大家为什么非要用
: 5000000000个数据折腾一番,花5到10倍的人力物力资源,得到同样的结果呢?
: 的确有必须要用5000000000个数据的项目,但是并不是所有和Web有关的项目都需要big
: data的吧。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。