avatar
f.t."我不会编程"# DataSciences - 数据科学
c*t
1
话说回来了,很不习惯新版买买提呀,有同感吗你们?
avatar
r*d
2
是否从哲学跟细节(粗中有细的细节,不是那种一毫米一毫米的细节)掌握算法并不意
味着getting hands dirty and implementing it from scratch.
欢迎大牛讨论 :)
avatar
l*m
3
看发展计划吧,如果是想在技术上有所成就,认为编程很容易又不去动手是矛盾的,不
是懒就是不聪明。大牛的动手能力都十分强,至少设计个learning算法都会release一
个R的包。当然,有其他事业和家庭规划,另说了。

【在 r*****d 的大作中提到】
: 是否从哲学跟细节(粗中有细的细节,不是那种一毫米一毫米的细节)掌握算法并不意
: 味着getting hands dirty and implementing it from scratch.
: 欢迎大牛讨论 :)

avatar
r*d
4
谢谢,很有见解!

【在 l*******m 的大作中提到】
: 看发展计划吧,如果是想在技术上有所成就,认为编程很容易又不去动手是矛盾的,不
: 是懒就是不聪明。大牛的动手能力都十分强,至少设计个learning算法都会release一
: 个R的包。当然,有其他事业和家庭规划,另说了。

avatar
l*e
5
(most)new & serious ML algorithms are not released in R for sure (some stat
ppl play with R)

【在 l*******m 的大作中提到】
: 看发展计划吧,如果是想在技术上有所成就,认为编程很容易又不去动手是矛盾的,不
: 是懒就是不聪明。大牛的动手能力都十分强,至少设计个learning算法都会release一
: 个R的包。当然,有其他事业和家庭规划,另说了。

avatar
l*m
6
那个50万 w2 G家老兄,是学统计的。

stat

【在 l**********e 的大作中提到】
: (most)new & serious ML algorithms are not released in R for sure (some stat
: ppl play with R)

avatar
l*e
7
... not relevant at all
btw, there are many examples of CS ppl get high package in jobhunting @
mitbbs

【在 l*******m 的大作中提到】
: 那个50万 w2 G家老兄,是学统计的。
:
: stat

avatar
c*t
8
统计被认为是predictive modeling的基础纯属意外。原因是统计常用词里有
prediction。统计里用这词需要很强的design of experiments设定的,小伙伴们就直
接通用了。当然小伙伴们是被引导的,最早是marketing里兼做点data mining的人这么
宣传的。20年后,这变成“常识”了。反正最早data mining里用的decision trees,
clustering, association rules统计也教。machine learning这东东小伙伴一说起来
不是decision trees就是neural network。其实这俩都没啥代表性。decision tree这
套跟传统glm/gam的framework的思考方式本质上没啥区别,整个体系可没传统glm/gam
发达。neural network几起几落也没弄出个系统,太开放了没法优化。在出kernel
learning之前machine learning在理论体系上比起传统统计也没啥亮点。传统统计本质
上就是做优化。一般优化不可能是global的就弄出bootstrap/jackknife来企图做
global optimization。统计做Bayesian的大多认为自己不是搞优化,实际上就是另一
种思路做那不可能的global optimization,然后很多来自design of experiments的概
念限制给哲学化地取消了,所以更能卖给必须用observational data的。主要研究优化
的是operation research,或一些applied math的professors。现在统计做Bayesian当
然不去研究优化,精力都用到神马adaptive LASSO这种东东上去了。不做Bayesian的也
很少去关心mathematical programming的进展。mathematical programming这边second
order cone mixed-integer programming都已经商用化了。学统计完全没概念吧?前
几天统计版有争论logistic regression和SVM哪个好。不客气说没人知到各自的优化算
法细节吧。不知道细节就没法调,就只能用别人写好的package/library。比的也就是
现成的package/library,跟这算法能做到什么关系不大。当然学优化的也不懂很多统计
。大家都闭门造车。比如统计里为了研究failure time自己弄了一套survival
analysis。几十年前数据收集很差的时后也就罢了,现在收集数据多很多了,
mathematical finance/econometrics里发展出的很多新的time series的ideas还是没
人用到failure time上。其实无论statistical models, machine learning models,
mathematical programming models还是time-series models,无非是搞优化,没人真
能作什么prediction/forecast,实际算法千变万化也不过是为了achieve那不可能做到
的global optimization。真有人能比较精确的predict/forecast,那早统治人类了。狗
狗,NSA啥的也用不着花这么大力气去搞大家的隐私。
因为小伙伴们理解的prediction/forecast实际上不存在,做predictive modeling无非
就是找个更适合你要处理的data的方法罢了。主要要点是你的观众买你账。另外neural
network最近借着deep learning的东风试图还魂。反正有人愿意花钱总能找到合适的
data来用的。大家将来肯定要学更fancy的神马backpropagation,divergence神马的
Big data主要不是说size大,主要是说新型的text,photos,audio/video神马的没法放
到relational database里去。现在IT的解决方案就是弄新型database。更好的解决方
案是在前端直接structuralize(就是把text,picture,video神马的全扫描了转成特定
的数码集,甚至找到更有效的方法表达这些扫描后/structuralized的数码集并存储)
。当年text analytics开始时就有人提过; 当时硬件没法实现。现在鼓吹的node计算
也都是后端的,把data弄出来,再strutralize,再做model。这些过程不推到前端那跟
传统做法没神马区别。
学算法的谈coding用不着自悲。远了不说去programming版潜潜水就知道了。学CS的考
虑的是做系统,思考不同的问题,用不同的librarys/packages罢了。你让他们说说科
学计算他们也不懂。很久以前有关算法的硬件优化和运行中的RAM优化可都是学applied
math和engineering(非computer engineering)的人搞的,比如现在所有科学计算都
必用的lapack什么的。现在大概没人会要求你这些都懂,因为估计雇人的自己也不知道
。大多数人也就是用package/library或商用软件混口饭吃罢了。当然因为目前商用的
没跟上,小伙伴们day to day都要应付类似command line的界面。远没有按按button就
出结果,拽拽图表就有人夸的生活舒服。压力山大。这不是coding,不过是被迫用
command line界面去call package/library罢了。慢慢等早晚会有button可按的,那时
候“解决问题能力”,“口才”就决定你的pay了
avatar
r*d
9
赞斑竹!
不明觉厉```
我今天也在想,,lightroom说的动手能力是一方面,CS那边最marketable的assets更
好像是:系统(约等于)架构(约等于)设计,例子有parallel programming(科学计
算,对DS很重要), design of scalable systems. 这两个例子都是theoretical and
philosophical的,有木有?
Leetcode, 有时我在想,一个局部问题,如果已经描述得非常清楚了是不是意味着已经
解决了呢?

gam

【在 c****t 的大作中提到】
: 统计被认为是predictive modeling的基础纯属意外。原因是统计常用词里有
: prediction。统计里用这词需要很强的design of experiments设定的,小伙伴们就直
: 接通用了。当然小伙伴们是被引导的,最早是marketing里兼做点data mining的人这么
: 宣传的。20年后,这变成“常识”了。反正最早data mining里用的decision trees,
: clustering, association rules统计也教。machine learning这东东小伙伴一说起来
: 不是decision trees就是neural network。其实这俩都没啥代表性。decision tree这
: 套跟传统glm/gam的framework的思考方式本质上没啥区别,整个体系可没传统glm/gam
: 发达。neural network几起几落也没弄出个系统,太开放了没法优化。在出kernel
: learning之前machine learning在理论体系上比起传统统计也没啥亮点。传统统计本质
: 上就是做优化。一般优化不可能是global的就弄出bootstrap/jackknife来企图做

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。