统计在data science里的地位# DataSciences - 数据科学Y*a2014-08-08 07:081 楼是不是特别低?看到的大部分招工广告里,要么就没提统计,要么是排在最后的专业,是不是说明统计专业知识在data science里不是很重要?
z*e2014-08-08 07:082 楼现在基建太差,底层基础还在构建当中,现阶段说统计有点太高级了,等hadoop再进化十年左右把一些r,sql这些脚本引擎全部搞好并开源那个时候可能会比较有戏,现在搞big data的多数还是码农但是统计的应用毕竟是从无到有,硬生生给弄出一块工作机会来可以了,比起其他行业来说,其他行业干脆是工作机会整个在减少都被码农给弄的
g*o2014-08-08 07:083 楼re现在大数据主要是靠攒机搞优化来提高【在 z****e 的大作中提到】: 现在基建太差,底层基础还在构建当中,现阶段说统计: 有点太高级了,等hadoop再进化十年左右: 把一些r,sql这些脚本引擎全部搞好并开源: 那个时候可能会比较有戏,现在搞big data的多数还是码农: 但是统计的应用毕竟是从无到有,硬生生给弄出一块工作机会来: 可以了,比起其他行业来说,其他行业干脆是工作机会整个在减少: 都被码农给弄的
j*n2014-08-08 07:084 楼没啥好高深的统计,啥 p value, z-test 就能唬倒一帮人,也就完全足够了. code code code ~!!! Big Data is all about code and scalability
c*g2014-08-08 07:086 楼呵呵。【在 j*****n 的大作中提到】: 没啥好高深的统计,啥 p value, z-test 就能唬倒一帮人,也就完全足够了. : code code code ~!!! Big Data is all about code and scalability
T*u2014-08-08 07:089 楼说实话现在统计的地位远不如编程。一个再好的ppt,也远远不如一个客户能用的uglyproduct好。编程那块是瓶颈。另外所谓data science偏应用,反而不追求统计上的正确性。
l*m2014-08-08 07:0810 楼可以这样划分。一个是得到每一个sample的成本很高,这样统计就比较重要。另一个是sample没有附加成本,数据大,cs 比较重要。还有统计比较被动,给个data, 就做呀做。cs经常会自己去找其他data sources.,比如抓个网页【在 Y****a 的大作中提到】: 是不是特别低?: 看到的大部分招工广告里,要么就没提统计,要么是排在最后的专业,是不是说明统计: 专业知识在data science里不是很重要?
l*n2014-08-08 07:0811 楼没有ppt你连项目都没有,谈什么product?不追求统计上的正确性,那你追求什么?做个垃圾?ugly【在 T*****u 的大作中提到】: 说实话现在统计的地位远不如编程。一个再好的ppt,也远远不如一个客户能用的ugly: product好。编程那块是瓶颈。另外所谓data science偏应用,反而不追求统计上的正: 确性。
m*t2014-08-08 07:0812 楼不是不追求正确性 而是追求最后的结果classification来说 最后出来结果我关心accuracy/fp/fnsample一下 看看就知道了 基本不会关心所谓的模型假设条件是什么所谓黑猫白猫【在 l******n 的大作中提到】: 没有ppt你连项目都没有,谈什么product?不追求统计上的正确性,那你追求什么?做: 个垃圾?: : ugly
c*t2014-08-08 07:0813 楼纯cs出身的没什么统计训练。统计这东西重要的是基本概念因为统计基本概念大都"counter-intuitive"。半路出家的没回头好好巩固一下基本概念的会啥都没用。前些天跟一个UToronto的据说deep learning大牛谈了谈。扯得一b。但基本统计概念全是错的。还不如一个学得很扎实的科班master另外fisher体系下有很多东西半理论半heuristic。data size大了确实不好用再另外如各位班上大牛所云学统计的大都没学过算法优化。而现在业界对这个需求最大所以至少目前统计在DS里没啥地位
T*u2014-08-08 07:0814 楼某些cs算法优化就是统计里面的over fitting。大牛不是hinton吧?【在 c****t 的大作中提到】: 纯cs出身的没什么统计训练。统计这东西重要的是基本概念因为统计基本概念大都": counter-intuitive"。半路出家的没回头好好巩固一下基本概念的会啥都没用。: 前些天跟一个UToronto的据说deep learning大牛谈了谈。扯得一b。但基本统计概念全: 是错的。还不如一个学得很扎实的科班master: 另外fisher体系下有很多东西半理论半heuristic。data size大了确实不好用: 再另外如各位班上大牛所云学统计的大都没学过算法优化。而现在业界对这个需求最大: 所以至少目前统计在DS里没啥地位
l*n2014-08-08 07:0815 楼全是错的。这就是你眼中的“大牛”?是大吹牛吧还不如一个学得很扎实的科班master【在 c****t 的大作中提到】: 纯cs出身的没什么统计训练。统计这东西重要的是基本概念因为统计基本概念大都": counter-intuitive"。半路出家的没回头好好巩固一下基本概念的会啥都没用。: 前些天跟一个UToronto的据说deep learning大牛谈了谈。扯得一b。但基本统计概念全: 是错的。还不如一个学得很扎实的科班master: 另外fisher体系下有很多东西半理论半heuristic。data size大了确实不好用: 再另外如各位班上大牛所云学统计的大都没学过算法优化。而现在业界对这个需求最大: 所以至少目前统计在DS里没啥地位
h*32014-08-08 07:0816 楼“UToronto的deep learning大牛”。。。。这个亮了!!!应该是说hintonhttp://www.cs.toronto.edu/~hinton/吧。传说中的扫地僧出现了!【在 c****t 的大作中提到】: 纯cs出身的没什么统计训练。统计这东西重要的是基本概念因为统计基本概念大都": counter-intuitive"。半路出家的没回头好好巩固一下基本概念的会啥都没用。: 前些天跟一个UToronto的据说deep learning大牛谈了谈。扯得一b。但基本统计概念全: 是错的。还不如一个学得很扎实的科班master: 另外fisher体系下有很多东西半理论半heuristic。data size大了确实不好用: 再另外如各位班上大牛所云学统计的大都没学过算法优化。而现在业界对这个需求最大: 所以至少目前统计在DS里没啥地位
s*h2014-08-08 07:0817 楼要站队的话我还是站Hinton那边吧至少觉得他的NN课还挺有料的。【在 h********3 的大作中提到】: “UToronto的deep learning大牛”。。。。这个亮了!!!应该是说hintonhttp://www.cs.toronto.edu/~hinton/吧。: 传说中的扫地僧出现了!
Y*a2014-08-08 07:0818 楼没想到这么老的帖子又被翻出来了。呵呵从统计意义上讲,能用500或5000个数据得出有意义的结论,大家为什么非要用5000000000个数据折腾一番,花5到10倍的人力物力资源,得到同样的结果呢?的确有必须要用5000000000个数据的项目,但是并不是所有和Web有关的项目都需要bigdata的吧。
Y*a2014-08-08 07:0819 楼没想到这么老的帖子又被翻出来了。呵呵从统计意义上讲,能用500或5000个数据得出有意义的结论,大家为什么非要用5000000000个数据折腾一番,花5到10倍的人力物力资源,得到同样的结果呢?的确有必须要用5000000000个数据的项目,但是并不是所有和Web有关的项目都需要bigdata的吧。
c*z2014-08-08 07:0822 楼Anyway, the point isas a worker, 钱多事少离家近as a manager, 位高权重责任轻as an owner, 人傻钱多官易饱everything else is 浮云
g*o2014-08-08 07:0823 楼mba是主角,主要是老板不识货。你看现在zara和hm,搞死多少低端品牌了【在 c***z 的大作中提到】: 统计是唱戏的(而且是配角),CS是搭台的: 如果这台老是塌,自然CS最重要: 反之统计会重要点,但是主角还是MBA: 这就是命
c*z2014-08-08 07:0824 楼大牛展开说说zara和hm?老板不识货那也是老板啊,除非你自己做老板,然后你一看,客户全是MBA【在 g*****o 的大作中提到】: mba是主角,主要是老板不识货。: 你看现在zara和hm,搞死多少低端品牌了
g*o2014-08-08 07:0825 楼有很多文章讲他们的啊zara和hm是搞快时尚啊.之前低端服装和高端服装都是一样的, 每年两季上新, 最多再加两次早春早秋.zara和hm, 却每个月都出新品, 每次做小批量上货, 而且销售数据全部传回总部进行分析, 方便下一批次设计调整反正现在没死的低端服装品牌都想往快时尚方面转, ca, af, gap等等. 但是貌似他们始终没能赶上zara和hm, 感觉他们只学到了"快", 多上新, 但是没学到数据整合. 销售没有快速反映在设计上.其实我是想以后自己当老板, 自己活学活用, 数据怎么算出来的, 可不可信, 自己都知道. 反正我们家也是干个体的→_→【在 c***z 的大作中提到】: 大牛展开说说zara和hm?: 老板不识货那也是老板啊,除非你自己做老板,然后你一看,客户全是MBA
n*32014-08-08 07:0827 楼fist of all, with larger dataset, the model should be more stableand it is hard to take good 500/5k sample out of huge dataset;and you will have/see more info will the big piture/big data.5到10倍的物力资源 maybe,5到10倍的人力, no no...big【在 Y****a 的大作中提到】: 没想到这么老的帖子又被翻出来了。呵呵: 从统计意义上讲,能用500或5000个数据得出有意义的结论,大家为什么非要用: 5000000000个数据折腾一番,花5到10倍的人力物力资源,得到同样的结果呢?: 的确有必须要用5000000000个数据的项目,但是并不是所有和Web有关的项目都需要big: data的吧。