f.t."我不会编程" - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>DataSciences - 数据科学

f.t."我不会编程"

f.t."我不会编程"# DataSciences - 数据科学

c*t2014-01-28 08:01

1 楼

话说回来了，很不习惯新版买买提呀，有同感吗你们？

r*d2014-01-28 08:01

2 楼

是否从哲学跟细节（粗中有细的细节，不是那种一毫米一毫米的细节）掌握算法并不意
味着getting hands dirty and implementing it from scratch.
欢迎大牛讨论：）

l*m2014-01-28 08:01

3 楼

看发展计划吧，如果是想在技术上有所成就，认为编程很容易又不去动手是矛盾的，不
是懒就是不聪明。大牛的动手能力都十分强，至少设计个learning算法都会release一
个R的包。当然，有其他事业和家庭规划，另说了。

【在 r*****d 的大作中提到】

: 是否从哲学跟细节（粗中有细的细节，不是那种一毫米一毫米的细节）掌握算法并不意
: 味着getting hands dirty and implementing it from scratch.
: 欢迎大牛讨论：）

r*d2014-01-28 08:01

4 楼

谢谢，很有见解！

【在 l*******m 的大作中提到】

: 看发展计划吧，如果是想在技术上有所成就，认为编程很容易又不去动手是矛盾的，不
: 是懒就是不聪明。大牛的动手能力都十分强，至少设计个learning算法都会release一
: 个R的包。当然，有其他事业和家庭规划，另说了。

l*e2014-01-28 08:01

5 楼

(most)new & serious ML algorithms are not released in R for sure (some stat
ppl play with R)

【在 l*******m 的大作中提到】

l*m2014-01-28 08:01

6 楼

那个50万 w2 G家老兄，是学统计的。

stat

【在 l**********e 的大作中提到】

: (most)new & serious ML algorithms are not released in R for sure (some stat
: ppl play with R)

l*e2014-01-28 08:01

7 楼

... not relevant at all
btw, there are many examples of CS ppl get high package in jobhunting @
mitbbs

【在 l*******m 的大作中提到】

: 那个50万 w2 G家老兄，是学统计的。
:
: stat

c*t2014-01-28 08:01

8 楼

统计被认为是predictive modeling的基础纯属意外。原因是统计常用词里有
prediction。统计里用这词需要很强的design of experiments设定的，小伙伴们就直
接通用了。当然小伙伴们是被引导的，最早是marketing里兼做点data mining的人这么
宣传的。20年后，这变成“常识”了。反正最早data mining里用的decision trees,
clustering, association rules统计也教。machine learning这东东小伙伴一说起来
不是decision trees就是neural network。其实这俩都没啥代表性。decision tree这
套跟传统glm/gam的framework的思考方式本质上没啥区别，整个体系可没传统glm/gam
发达。neural network几起几落也没弄出个系统，太开放了没法优化。在出kernel
learning之前machine learning在理论体系上比起传统统计也没啥亮点。传统统计本质
上就是做优化。一般优化不可能是global的就弄出bootstrap/jackknife来企图做
global optimization。统计做Bayesian的大多认为自己不是搞优化，实际上就是另一
种思路做那不可能的global optimization,然后很多来自design of experiments的概
念限制给哲学化地取消了，所以更能卖给必须用observational data的。主要研究优化
的是operation research,或一些applied math的professors。现在统计做Bayesian当
然不去研究优化，精力都用到神马adaptive LASSO这种东东上去了。不做Bayesian的也
很少去关心mathematical programming的进展。mathematical programming这边second
order cone mixed-integer programming都已经商用化了。学统计完全没概念吧？前
几天统计版有争论logistic regression和SVM哪个好。不客气说没人知到各自的优化算
法细节吧。不知道细节就没法调，就只能用别人写好的package/library。比的也就是
现成的package/library,跟这算法能做到什么关系不大。当然学优化的也不懂很多统计
。大家都闭门造车。比如统计里为了研究failure time自己弄了一套survival
analysis。几十年前数据收集很差的时后也就罢了，现在收集数据多很多了，
mathematical finance/econometrics里发展出的很多新的time series的ideas还是没
人用到failure time上。其实无论statistical models, machine learning models,
mathematical programming models还是time-series models，无非是搞优化，没人真
能作什么prediction/forecast,实际算法千变万化也不过是为了achieve那不可能做到
的global optimization。真有人能比较精确的predict/forecast,那早统治人类了。狗
狗，NSA啥的也用不着花这么大力气去搞大家的隐私。
因为小伙伴们理解的prediction/forecast实际上不存在，做predictive modeling无非
就是找个更适合你要处理的data的方法罢了。主要要点是你的观众买你账。另外neural
network最近借着deep learning的东风试图还魂。反正有人愿意花钱总能找到合适的
data来用的。大家将来肯定要学更fancy的神马backpropagation,divergence神马的
Big data主要不是说size大，主要是说新型的text,photos,audio/video神马的没法放
到relational database里去。现在IT的解决方案就是弄新型database。更好的解决方
案是在前端直接structuralize（就是把text,picture,video神马的全扫描了转成特定
的数码集，甚至找到更有效的方法表达这些扫描后/structuralized的数码集并存储）
。当年text analytics开始时就有人提过;　当时硬件没法实现。现在鼓吹的node计算
也都是后端的，把data弄出来，再strutralize，再做model。这些过程不推到前端那跟
传统做法没神马区别。
学算法的谈coding用不着自悲。远了不说去programming版潜潜水就知道了。学CS的考
虑的是做系统，思考不同的问题，用不同的librarys/packages罢了。你让他们说说科
学计算他们也不懂。很久以前有关算法的硬件优化和运行中的RAM优化可都是学applied
math和engineering（非computer engineering)的人搞的，比如现在所有科学计算都
必用的lapack什么的。现在大概没人会要求你这些都懂，因为估计雇人的自己也不知道
。大多数人也就是用package/library或商用软件混口饭吃罢了。当然因为目前商用的
没跟上，小伙伴们day to day都要应付类似command line的界面。远没有按按button就
出结果，拽拽图表就有人夸的生活舒服。压力山大。这不是coding,不过是被迫用
command line界面去call package/library罢了。慢慢等早晚会有button可按的，那时
候“解决问题能力”，“口才”就决定你的pay了
。

r*d2014-01-28 08:01

9 楼

赞斑竹！
不明觉厉｀｀｀
我今天也在想，，lightroom说的动手能力是一方面，CS那边最marketable的assets更
好像是：系统（约等于）架构（约等于）设计，例子有parallel programming（科学计
算，对DS很重要）, design of scalable systems. 这两个例子都是theoretical and
philosophical的，有木有？
Leetcode, 有时我在想，一个局部问题，如果已经描述得非常清楚了是不是意味着已经
解决了呢？

gam

【在 c****t 的大作中提到】

: 统计被认为是predictive modeling的基础纯属意外。原因是统计常用词里有
: prediction。统计里用这词需要很强的design of experiments设定的，小伙伴们就直
: 接通用了。当然小伙伴们是被引导的，最早是marketing里兼做点data mining的人这么
: 宣传的。20年后，这变成“常识”了。反正最早data mining里用的decision trees,
: clustering, association rules统计也教。machine learning这东东小伙伴一说起来
: 不是decision trees就是neural network。其实这俩都没啥代表性。decision tree这
: 套跟传统glm/gam的framework的思考方式本质上没啥区别，整个体系可没传统glm/gam
: 发达。neural network几起几落也没弄出个系统，太开放了没法优化。在出kernel
: learning之前machine learning在理论体系上比起传统统计也没啥亮点。传统统计本质
: 上就是做优化。一般优化不可能是global的就弄出bootstrap/jackknife来企图做