求助：Bayesian入门 - 未名空间MITBBS历史存档

o*e2015-01-27 08:01

1 楼

看网上的新闻说俄罗斯的某个少年参加某个活动中奖了，可是你知道奖品是什么么？绝
对的出乎所有人之外，奖品竟让是与成人女星共处一夜。听到之后是不是很羡慕呀，毕
竟这位幸运的小男孩才16岁呀！16岁就能懂得这么多，还有天理吗？不知道你们是怎么
想的，反正我是各种羡慕嫉妒恨。
其实也不是完全的只是羡慕，只是觉得现在的某些人为了营销的目的经常会做出一些不
可思议的事情。比如我们经常说去看车展，可是现在的人哪里是专门去车展看车子，大
多数估计都是冲着那些衣着暴露的车模去的，三观节操尽毁呀。还有另外的一些制造各
种各样让人意想不到的事件来博取别人的眼球，如果之前的上海女事件，之前的北京地
铁外乡人吵架事件等等都是如此，这些事情可都是别人为了营销目的送给我们的礼物哟
。哈哈哈，不过这些都没有那个俄罗斯的小男孩幸运，不知道那位小男孩听到结果之后
会怎么办呢？那个小男孩的父母会怎么办？不知道能不能折算成现金呢！
世界有点疯狂，我想静静！

b*n2015-01-27 08:01

2 楼

我是统计还没入门的菜鸟，麻烦大家能否帮助用中文分别解释下Bayesian；Bayesian
nonparametic;Bayesian interence这三个是用来干什么的，有什么用，还有实际应用
是什么 (麻烦用high level容易懂的方式解释）。
多谢大家了！

g*o2015-01-27 08:01

3 楼

惹, 你连贝叶斯公式, 一般的非参数统计, 推断统计都不知道,
还是先补课吧

【在 b********n 的大作中提到】

: 我是统计还没入门的菜鸟，麻烦大家能否帮助用中文分别解释下Bayesian；Bayesian
: nonparametic;Bayesian interence这三个是用来干什么的，有什么用，还有实际应用
: 是什么 (麻烦用high level容易懂的方式解释）。
: 多谢大家了！

d*e2015-01-27 08:01

4 楼

哥们儿，你一句话就露怯了... ...
贝叶斯公式/定理是Bayes' formula/theorem，和Bayesian两码事

Bayesian
应用

【在 g*****o 的大作中提到】

: 惹, 你连贝叶斯公式, 一般的非参数统计, 推断统计都不知道,
: 还是先补课吧

w*22015-01-27 08:01

5 楼

同问

d*e2015-01-27 08:01

6 楼

没入门就先学一下基本的Statistical Inference，然后再来研究Bayesian不迟。

【在 w**2 的大作中提到】

: 同问

t*g2015-01-27 08:01

7 楼

看你贝叶斯大概想了解到什么程度。
偏应用的话，Gelman等人有本Bayesian data analysis，可以看下。
Bayesian nonparametrics比较复杂，这个我觉得你先不用管。这个大体意思是prior在
functional space上。
我对楼主的建议是先看下统计方面的书。比较推荐Berger and Casella那本关于
statistical inference的书。那本也会讲到些关于bayesian方面。接下来可以看
Bayesian Data Analysis by Gelman，大体就是了解下MCMC，Gibbs Sampling。
Bayesian Nonparamreics不用太管，如果真想了解，可以先了解下Dirichlet Process。

g*o2015-01-27 08:01

8 楼

我又不是用英文上课的, 你自己爱扣字眼就自己去扣吧.
我是看lz那个样子, 很有可能连贝叶斯公式都不知道

【在 d******e 的大作中提到】

: 哥们儿，你一句话就露怯了... ...
: 贝叶斯公式/定理是Bayes' formula/theorem，和Bayesian两码事
:
: Bayesian
: 应用

c*t2015-01-27 08:01

9 楼

gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
这当reference可以。没基础的话看看jeff gill的bayesian methods吧
其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
多问了
mcmc是跟传统的maximum likelihood完全不同的体系。maximum likelihood说简单点就
是做优化。优化的思路就是求个一阶导数。一阶导数等0就是优化点。一个一阶导数的
分布可以形像点比喻成一个山谷。优化就是找到这山谷最深点。这里最大的问题就是山
谷里可能有个点有个深坑，这坑最深处比整个山谷肉眼能看到最低洼处还低，但是你不
下去是量不出来的。为了回避这个问题，传统统计就选一些probability
distributions,它们的一阶导数分布都够光滑柔腻，没有深坑。这样找最低点就容易多
了。而寻找的方法，也就是具体优化的做法是求个二阶导数，然后根据这个二阶导数从
山谷中一点跳向另一点直到跳到最低点。最传统的IRLS是先高瞻远煮一下，看看整个山
谷（大概跳下去就有雾了），定个二阶导数开跳。那位老乡问了，你为啥非要定个二阶
导数涅？因为这是个无重力山谷。定二阶导数相当于加个人为重力场，你了了吗？IRLS
因为是先看整个山谷，定的二阶导数比较“平”。当数据量小，变化不大时还能用。现
在动不动几m到几百m行的数据，那山谷里坑坑洼洼免不了的。用IRLS定的二阶导数太“
轻”，很容宜就卡在哪里下不去了。也就找不到真正的最深点。后来有人引入newton-
raphson，也就是现在用得最多的gradient descent。这路子是每跳到一个点再抬头看
看，重新定个二阶导数（也许有红外镜了，不怕雾了）。一般这样能跳深点。不过那个
山谷某处有深坑的问题还是解决不了。要不是哪次恰好跳那坑里去了，那坑是会被忽略
的。这是为啥大家都用parametric方法因为可以假装深坑不存在。用non-parametric倒
是可以反映深坑，但是这non-parametric的要弄出个山谷来再定个二阶导数啥的现有的
计算能力都是要爆机的。这是为啥传统优化方法要“跳”下去。另外现在最流行
stochastic gradient descent就是拔撮毫毛施展分身法，变出几百几千个测量队一起
去测一下山谷，然后大家通讯一下（发展出电话了（gpu里的hierarchical memory就这
功能）），比一比就行了，也不用制造出重力场让测量队去跳了但是要知道怎么保正测
量队都“着陆”。
mcmc用energy based的方法（也是理论物理最开始用metropolis方法时的设想）就是设
定一个描述整个系统状态的东东。数据（相当于理论物理中的“观察”）或piror啥的
会改变系统的初始能量壮态。uninformative prior就相当于一个0值初始能态。不过只
要你有数据，初始能态就不会是0。然后的算法用改变整个系统来改平衡系统的能量到0
。因为是调节整个系统，就不怎么怕深坑啥的（深坑该有总是有的，不管实际算法求不
求一阶导）。很多过去末名其妙表现良好的方法比如naive bayes就实际上用上了
energy base的方法。这也是gibbs sampling确实是mcmc而不是灌统计水的吹嘘的是“
真正的bayesian思想”的原因。不过现在的mcmc算法有点像pinball。那小球是乱飞乱
跑的。所以最后要thin掉绝大多数的中间结果，非常inefficent。这在原先理论物理方
法中没问题因为物理学家们要的就是这种所谓的hamiltonian motion。在机器学习中我
们没这个要求，相反的是要尽快达到需要的能态。现有的没啥好方法，early-stop就算
是神器了。这个其实在energy base的体系里或者是所谓的bayesian statistics里是没
有解决方案的。至于为什么和怎么改那是我的研究不能告诉你
其实这些无论是面试还是工作都用不着。你扯得太多谁也不懂，不但无利于提升逼格，
反而会被标记成不善交流。事得其反

b*n2015-01-27 08:01

10 楼

谢谢大牛。您能否介绍下Bayesian是如何应用到machine learning上面的吗？（能否麻
烦用简易high level平常的话说说，太专业的词汇我这个入门菜鸟听不懂啊）

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

t*g2015-01-27 08:01

11 楼

版大威武！膜拜ing.

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

g*o2015-01-27 08:01

12 楼

扯太远了吧...
mcmc其实主要是个计算复杂积分的方法, 和frequenist vs bayesian的讨论有毛线关系
.
码农又在以己度人了么→_→

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

g*o2015-01-27 08:01

13 楼

真心的, 从头学起, 不然即使你真的照猫画虎把相关的包用到了数据上, 你也不知道怎
么评价结果, 判断是否存在错误

【在 b********n 的大作中提到】

: 谢谢大牛。您能否介绍下Bayesian是如何应用到machine learning上面的吗？（能否麻
: 烦用简易high level平常的话说说，太专业的词汇我这个入门菜鸟听不懂啊）
:
: lecun
: prior,

d*e2015-01-27 08:01

14 楼

我保证你说的LZ一句都看不懂。

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

S*o2015-01-27 08:01

15 楼

解释得真好，不知道global optimization里面的一些思想是否会对你提到的mcmc上的
问题有所帮助？
比如model-based method，cross-entropy这些，当然本质上起作用的应该还是背后的
laplace method，所以这些方法在高维存在困难，100维以内应该还好，再高大概也只
能Gibbs或着更无奈的Metropolis within Gibbs了

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

g*o2015-01-27 08:01

16 楼

有啥无奈的啊, metropolis with gibbs不是必学内容么..

【在 S*****o 的大作中提到】

: 解释得真好，不知道global optimization里面的一些思想是否会对你提到的mcmc上的
: 问题有所帮助？
: 比如model-based method，cross-entropy这些，当然本质上起作用的应该还是背后的
: laplace method，所以这些方法在高维存在困难，100维以内应该还好，再高大概也只
: 能Gibbs或着更无奈的Metropolis within Gibbs了
:
: lecun
: prior,

S*o2015-01-27 08:01

17 楼

因为mixing太慢了，尤其想用在比如large random field上的时候
不过这不是我的主要方向，懂得不多...只是曾经实习时候接到一个这样的project
我们试图加速它，但是最后没有获得满意的结果，所以之前看到有牛人说这方面有新的
进展，很好奇

【在 g*****o 的大作中提到】

: 有啥无奈的啊, metropolis with gibbs不是必学内容么..

g*o2015-01-27 08:01

18 楼

至少比单纯的gibbs快啊...

【在 S*****o 的大作中提到】

: 因为mixing太慢了，尤其想用在比如large random field上的时候
: 不过这不是我的主要方向，懂得不多...只是曾经实习时候接到一个这样的project
: 我们试图加速它，但是最后没有获得满意的结果，所以之前看到有牛人说这方面有新的
: 进展，很好奇

S*o2015-01-27 08:01

19 楼

大概是我没讲清楚吧，不好意思
真没可能比Gibbs快，实际上，正是因为conditional distribution没法算，做不了
Gibbs，只好M-H within Gibbs了...

【在 g*****o 的大作中提到】

: 至少比单纯的gibbs快啊...

e*22015-01-27 08:01

20 楼

就是用来忽悠你的呀！哈哈哈！

【在 b********n 的大作中提到】

: 我是统计还没入门的菜鸟，麻烦大家能否帮助用中文分别解释下Bayesian；Bayesian
: nonparametic;Bayesian interence这三个是用来干什么的，有什么用，还有实际应用
: 是什么 (麻烦用high level容易懂的方式解释）。
: 多谢大家了！

T*u2015-01-27 08:01

21 楼

你懂了吗

【在 d******e 的大作中提到】

: 我保证你说的LZ一句都看不懂。
:
: lecun
: prior,

d*e2015-01-27 08:01

22 楼

他讲的就是Maximum Likelihood和Bayesian Estimator的基本思想和基本区别。
一个是在是求最大化参数Likelihood。
至于说用Gradient Ascent，用Newton。Stochastic做，Batch做不过都是手段罢了。
一个是对Posterior做积分。
至于如何Sampling，是Gibbs Sampling, 还是更general的MH之类的，也只是手段罢了。
呵呵，你这是要Challenge我么？

【在 T*****u 的大作中提到】

: 你懂了吗

T*u2015-01-27 08:01

23 楼

别误会，开玩笑的意思，不可能要challenge你啊。我看法和你一样，楼主问了个像入
门的问题，结果甩了这么个大炸弹出来，结果只有在客厅里的人才能看懂。

了。

【在 d******e 的大作中提到】

: 他讲的就是Maximum Likelihood和Bayesian Estimator的基本思想和基本区别。
: 一个是在是求最大化参数Likelihood。
: 至于说用Gradient Ascent，用Newton。Stochastic做，Batch做不过都是手段罢了。
: 一个是对Posterior做积分。
: 至于如何Sampling，是Gibbs Sampling, 还是更general的MH之类的，也只是手段罢了。
: 呵呵，你这是要Challenge我么？

c*m2015-01-27 08:01

24 楼

你可以去搜下stanford CS229 的note。里面讲了用naive bayes做spam email的
classification

【在 b********n 的大作中提到】

: 谢谢大牛。您能否介绍下Bayesian是如何应用到machine learning上面的吗？（能否麻
: 烦用简易high level平常的话说说，太专业的词汇我这个入门菜鸟听不懂啊）
:
: lecun
: prior,

b*n2015-01-27 08:01

25 楼

我是统计还没入门的菜鸟，麻烦大家能否帮助用中文分别解释下Bayesian；Bayesian
nonparametic;Bayesian interence这三个是用来干什么的，有什么用，还有实际应用
是什么 (麻烦用high level容易懂的方式解释）。
多谢大家了！

g*o2015-01-27 08:01

26 楼

惹, 你连贝叶斯公式, 一般的非参数统计, 推断统计都不知道,
还是先补课吧

【在 b********n 的大作中提到】

: 我是统计还没入门的菜鸟，麻烦大家能否帮助用中文分别解释下Bayesian；Bayesian
: nonparametic;Bayesian interence这三个是用来干什么的，有什么用，还有实际应用
: 是什么 (麻烦用high level容易懂的方式解释）。
: 多谢大家了！

d*e2015-01-27 08:01

27 楼

哥们儿，你一句话就露怯了... ...
贝叶斯公式/定理是Bayes' formula/theorem，和Bayesian两码事

Bayesian
应用

【在 g*****o 的大作中提到】

: 惹, 你连贝叶斯公式, 一般的非参数统计, 推断统计都不知道,
: 还是先补课吧

w*22015-01-27 08:01

28 楼

同问

d*e2015-01-27 08:01

29 楼

没入门就先学一下基本的Statistical Inference，然后再来研究Bayesian不迟。

【在 w**2 的大作中提到】

: 同问

t*g2015-01-27 08:01

30 楼

看你贝叶斯大概想了解到什么程度。
偏应用的话，Gelman等人有本Bayesian data analysis，可以看下。
Bayesian nonparametrics比较复杂，这个我觉得你先不用管。这个大体意思是prior在
functional space上。
我对楼主的建议是先看下统计方面的书。比较推荐Berger and Casella那本关于
statistical inference的书。那本也会讲到些关于bayesian方面。接下来可以看
Bayesian Data Analysis by Gelman，大体就是了解下MCMC，Gibbs Sampling。
Bayesian Nonparamreics不用太管，如果真想了解，可以先了解下Dirichlet Process。

g*o2015-01-27 08:01

31 楼

我又不是用英文上课的, 你自己爱扣字眼就自己去扣吧.
我是看lz那个样子, 很有可能连贝叶斯公式都不知道

【在 d******e 的大作中提到】

: 哥们儿，你一句话就露怯了... ...
: 贝叶斯公式/定理是Bayes' formula/theorem，和Bayesian两码事
:
: Bayesian
: 应用

c*t2015-01-27 08:01

32 楼

gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
这当reference可以。没基础的话看看jeff gill的bayesian methods吧
其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
多问了
mcmc是跟传统的maximum likelihood完全不同的体系。maximum likelihood说简单点就
是做优化。优化的思路就是求个一阶导数。一阶导数等0就是优化点。一个一阶导数的
分布可以形像点比喻成一个山谷。优化就是找到这山谷最深点。这里最大的问题就是山
谷里可能有个点有个深坑，这坑最深处比整个山谷肉眼能看到最低洼处还低，但是你不
下去是量不出来的。为了回避这个问题，传统统计就选一些probability
distributions,它们的一阶导数分布都够光滑柔腻，没有深坑。这样找最低点就容易多
了。而寻找的方法，也就是具体优化的做法是求个二阶导数，然后根据这个二阶导数从
山谷中一点跳向另一点直到跳到最低点。最传统的IRLS是先高瞻远煮一下，看看整个山
谷（大概跳下去就有雾了），定个二阶导数开跳。那位老乡问了，你为啥非要定个二阶
导数涅？因为这是个无重力山谷。定二阶导数相当于加个人为重力场，你了了吗？IRLS
因为是先看整个山谷，定的二阶导数比较“平”。当数据量小，变化不大时还能用。现
在动不动几m到几百m行的数据，那山谷里坑坑洼洼免不了的。用IRLS定的二阶导数太“
轻”，很容宜就卡在哪里下不去了。也就找不到真正的最深点。后来有人引入newton-
raphson，也就是现在用得最多的gradient descent。这路子是每跳到一个点再抬头看
看，重新定个二阶导数（也许有红外镜了，不怕雾了）。一般这样能跳深点。不过那个
山谷某处有深坑的问题还是解决不了。要不是哪次恰好跳那坑里去了，那坑是会被忽略
的。这是为啥大家都用parametric方法因为可以假装深坑不存在。用non-parametric倒
是可以反映深坑，但是这non-parametric的要弄出个山谷来再定个二阶导数啥的现有的
计算能力都是要爆机的。这是为啥传统优化方法要“跳”下去。另外现在最流行
stochastic gradient descent就是拔撮毫毛施展分身法，变出几百几千个测量队一起
去测一下山谷，然后大家通讯一下（发展出电话了（gpu里的hierarchical memory就这
功能）），比一比就行了，也不用制造出重力场让测量队去跳了但是要知道怎么保正测
量队都“着陆”。
mcmc用energy based的方法（也是理论物理最开始用metropolis方法时的设想）就是设
定一个描述整个系统状态的东东。数据（相当于理论物理中的“观察”）或piror啥的
会改变系统的初始能量壮态。uninformative prior就相当于一个0值初始能态。不过只
要你有数据，初始能态就不会是0。然后的算法用改变整个系统来改平衡系统的能量到0
。因为是调节整个系统，就不怎么怕深坑啥的（深坑该有总是有的，不管实际算法求不
求一阶导）。很多过去末名其妙表现良好的方法比如naive bayes就实际上用上了
energy base的方法。这也是gibbs sampling确实是mcmc而不是灌统计水的吹嘘的是“
真正的bayesian思想”的原因。不过现在的mcmc算法有点像pinball。那小球是乱飞乱
跑的。所以最后要thin掉绝大多数的中间结果，非常inefficent。这在原先理论物理方
法中没问题因为物理学家们要的就是这种所谓的hamiltonian motion。在机器学习中我
们没这个要求，相反的是要尽快达到需要的能态。现有的没啥好方法，early-stop就算
是神器了。这个其实在energy base的体系里或者是所谓的bayesian statistics里是没
有解决方案的。至于为什么和怎么改那是我的研究不能告诉你
其实这些无论是面试还是工作都用不着。你扯得太多谁也不懂，不但无利于提升逼格，
反而会被标记成不善交流。事得其反

b*n2015-01-27 08:01

33 楼

谢谢大牛。您能否介绍下Bayesian是如何应用到machine learning上面的吗？（能否麻
烦用简易high level平常的话说说，太专业的词汇我这个入门菜鸟听不懂啊）

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

t*g2015-01-27 08:01

34 楼

版大威武！膜拜ing.

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

g*o2015-01-27 08:01

35 楼

扯太远了吧...
mcmc其实主要是个计算复杂积分的方法, 和frequenist vs bayesian的讨论有毛线关系
.
码农又在以己度人了么→_→

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

g*o2015-01-27 08:01

36 楼

真心的, 从头学起, 不然即使你真的照猫画虎把相关的包用到了数据上, 你也不知道怎
么评价结果, 判断是否存在错误

【在 b********n 的大作中提到】

: 谢谢大牛。您能否介绍下Bayesian是如何应用到machine learning上面的吗？（能否麻
: 烦用简易high level平常的话说说，太专业的词汇我这个入门菜鸟听不懂啊）
:
: lecun
: prior,

d*e2015-01-27 08:01

37 楼

我保证你说的LZ一句都看不懂。

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

S*o2015-01-27 08:01

38 楼

解释得真好，不知道global optimization里面的一些思想是否会对你提到的mcmc上的
问题有所帮助？
比如model-based method，cross-entropy这些，当然本质上起作用的应该还是背后的
laplace method，所以这些方法在高维存在困难，100维以内应该还好，再高大概也只
能Gibbs或着更无奈的Metropolis within Gibbs了

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

g*o2015-01-27 08:01

39 楼

有啥无奈的啊, metropolis with gibbs不是必学内容么..

【在 S*****o 的大作中提到】

: 解释得真好，不知道global optimization里面的一些思想是否会对你提到的mcmc上的
: 问题有所帮助？
: 比如model-based method，cross-entropy这些，当然本质上起作用的应该还是背后的
: laplace method，所以这些方法在高维存在困难，100维以内应该还好，再高大概也只
: 能Gibbs或着更无奈的Metropolis within Gibbs了
:
: lecun
: prior,

S*o2015-01-27 08:01

40 楼

因为mixing太慢了，尤其想用在比如large random field上的时候
不过这不是我的主要方向，懂得不多...只是曾经实习时候接到一个这样的project
我们试图加速它，但是最后没有获得满意的结果，所以之前看到有牛人说这方面有新的
进展，很好奇

【在 g*****o 的大作中提到】

: 有啥无奈的啊, metropolis with gibbs不是必学内容么..

g*o2015-01-27 08:01

41 楼

至少比单纯的gibbs快啊...

【在 S*****o 的大作中提到】

: 因为mixing太慢了，尤其想用在比如large random field上的时候
: 不过这不是我的主要方向，懂得不多...只是曾经实习时候接到一个这样的project
: 我们试图加速它，但是最后没有获得满意的结果，所以之前看到有牛人说这方面有新的
: 进展，很好奇

S*o2015-01-27 08:01

42 楼

大概是我没讲清楚吧，不好意思
真没可能比Gibbs快，实际上，正是因为conditional distribution没法算，做不了
Gibbs，只好M-H within Gibbs了...

【在 g*****o 的大作中提到】

: 至少比单纯的gibbs快啊...

e*22015-01-27 08:01

43 楼

就是用来忽悠你的呀！哈哈哈！

【在 b********n 的大作中提到】

: 我是统计还没入门的菜鸟，麻烦大家能否帮助用中文分别解释下Bayesian；Bayesian
: nonparametic;Bayesian interence这三个是用来干什么的，有什么用，还有实际应用
: 是什么 (麻烦用high level容易懂的方式解释）。
: 多谢大家了！

T*u2015-01-27 08:01

44 楼

你懂了吗

【在 d******e 的大作中提到】

: 我保证你说的LZ一句都看不懂。
:
: lecun
: prior,

d*e2015-01-27 08:01

45 楼

他讲的就是Maximum Likelihood和Bayesian Estimator的基本思想和基本区别。
一个是在是求最大化参数Likelihood。
至于说用Gradient Ascent，用Newton。Stochastic做，Batch做不过都是手段罢了。
一个是对Posterior做积分。
至于如何Sampling，是Gibbs Sampling, 还是更general的MH之类的，也只是手段罢了。
呵呵，你这是要Challenge我么？

【在 T*****u 的大作中提到】

: 你懂了吗

T*u2015-01-27 08:01

46 楼

别误会，开玩笑的意思，不可能要challenge你啊。我看法和你一样，楼主问了个像入
门的问题，结果甩了这么个大炸弹出来，结果只有在客厅里的人才能看懂。

了。

【在 d******e 的大作中提到】

: 他讲的就是Maximum Likelihood和Bayesian Estimator的基本思想和基本区别。
: 一个是在是求最大化参数Likelihood。
: 至于说用Gradient Ascent，用Newton。Stochastic做，Batch做不过都是手段罢了。
: 一个是对Posterior做积分。
: 至于如何Sampling，是Gibbs Sampling, 还是更general的MH之类的，也只是手段罢了。
: 呵呵，你这是要Challenge我么？

c*m2015-01-27 08:01

47 楼

你可以去搜下stanford CS229 的note。里面讲了用naive bayes做spam email的
classification

【在 b********n 的大作中提到】

: 谢谢大牛。您能否介绍下Bayesian是如何应用到machine learning上面的吗？（能否麻
: 烦用简易high level平常的话说说，太专业的词汇我这个入门菜鸟听不懂啊）
:
: lecun
: prior,

s*w2015-01-27 08:01

48 楼

膜拜一下

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

T*u2015-01-27 08:01

49 楼

你给他推荐gelman还不如让他死了好了。不如think bayes，通俗易懂。

Process。

【在 t******g 的大作中提到】

: 看你贝叶斯大概想了解到什么程度。
: 偏应用的话，Gelman等人有本Bayesian data analysis，可以看下。
: Bayesian nonparametrics比较复杂，这个我觉得你先不用管。这个大体意思是prior在
: functional space上。
: 我对楼主的建议是先看下统计方面的书。比较推荐Berger and Casella那本关于
: statistical inference的书。那本也会讲到些关于bayesian方面。接下来可以看
: Bayesian Data Analysis by Gelman，大体就是了解下MCMC，Gibbs Sampling。
: Bayesian Nonparamreics不用太管，如果真想了解，可以先了解下Dirichlet Process。

H*E2015-01-27 08:01

50 楼

lecun
prior,
太强大了！威武！就像三国演义小人书版。。。

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

c*r2015-01-27 08:01

51 楼

MCMC就是个computation tool，物理里面出来的后来在统计里面因为有很多应用发展了
很多（不光是bayesian inference)，至于为啥有Bayesian和frequentist的争论你去读
些经典文献再评论也不迟。刷题这些能保证你找个一般工作，真正好的地方会看你是不
是知道自己在说什么，而不是你能做出来啥题。

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

B*n2015-01-27 08:01

52 楼

貝氏定理怎麼能說和Bayesian兩碼事呢
如果仔細看一下Bayes' formula就會發現其實就是先給prior distribution 有了Data
後透過Bayes' formula算出posterior distribution 這正是Bayesian在幹的事

【在 d******e 的大作中提到】

: 哥们儿，你一句话就露怯了... ...
: 贝叶斯公式/定理是Bayes' formula/theorem，和Bayesian两码事
:
: Bayesian
: 应用

f*k2015-01-27 08:01

53 楼

要了解Bayesian theory的来龙去脉，与frequentist的区别，还有经常遇到的各种
estimation\inference问题，非常推荐Robert的Bayesian Choice一书。

c*z2015-01-27 08:01

54 楼

赞，相比之下我常干的最小化cost function真是简单粗暴
建议LZ还是从简单粗暴的开始吧

了。

【在 d******e 的大作中提到】

: 他讲的就是Maximum Likelihood和Bayesian Estimator的基本思想和基本区别。
: 一个是在是求最大化参数Likelihood。
: 至于说用Gradient Ascent，用Newton。Stochastic做，Batch做不过都是手段罢了。
: 一个是对Posterior做积分。
: 至于如何Sampling，是Gibbs Sampling, 还是更general的MH之类的，也只是手段罢了。
: 呵呵，你这是要Challenge我么？

n*32015-01-27 08:01

55 楼

Bayesian Choice is even more theory approach than the Gentleman's book;;
Bayesian is on parameter space;
frequentist on is sample space;
that is the fundamental thoughts different.

【在 f******k 的大作中提到】

: 要了解Bayesian theory的来龙去脉，与frequentist的区别，还有经常遇到的各种
: estimation\inference问题，非常推荐Robert的Bayesian Choice一书。

T*I2015-01-27 08:01

56 楼

Bayesian statistics is a joke, and Let it die, but maybe I am wrong.

【在 b********n 的大作中提到】

: 我是统计还没入门的菜鸟，麻烦大家能否帮助用中文分别解释下Bayesian；Bayesian
: nonparametic;Bayesian interence这三个是用来干什么的，有什么用，还有实际应用
: 是什么 (麻烦用high level容易懂的方式解释）。
: 多谢大家了！

g*o2015-01-27 08:01

57 楼

你这个nc又来现了啊? 在统计版被骂得还不够啊

【在 T*******I 的大作中提到】

: Bayesian statistics is a joke, and Let it die, but maybe I am wrong.

c*z2015-01-27 08:01

58 楼

赞！
大牛是物理出身吗？我知道好几个物理出身的大牛，看问题特别清楚。

lecun
prior,

【在 c****t 的大作中提到】

: gelman的bda是大号经典没错但是出了名的难读难懂。等你从别的地方全学会了回头拿
: 这当reference可以。没基础的话看看jeff gill的bayesian methods吧
: 其实找工作刷题才是王道(不只是leetcode)，进工业界干活不用懂这么多。多讨论面试
: 题更有用。统计版不让讨论面试题也是我开此版的主要原因之一。
: 另外mcmc是从理论物理来的。跟统计一根毛的关系都没有。真想学懂直接看yann lecun
: 有关energy based models的东东也许能明白的更快一些。我一向认为灌统计水的大谈
: 特谈bayesian,扯神马frequenists vs. bayesian probability，神马prior,
: postorior,就是为了掩盖mcmc根本不是统计创造发明出来的事实。一般人从神马prior,
: posteriror啊，bayesian probability啊学起，等你学到mcmc时早迷糊了。也就不会
: 多问了

k*y2015-01-27 08:01

59 楼

Mark

d*e2015-01-27 08:01

60 楼

完了，陈大师这是要搅乱DS版的节奏啊

【在 g*****o 的大作中提到】

: 你这个nc又来现了啊? 在统计版被骂得还不够啊

T*I2015-01-27 08:01

61 楼

基本上，玩bayesian statistics的都是在玩纯数学，也就是从假设出发搞推理证明，
最后来点样本做个验证。
可惜，这不是统计学，拜托了。

【在 d******e 的大作中提到】

: 完了，陈大师这是要搅乱DS版的节奏啊

l*s2015-01-27 08:01

62 楼

去年选了一个学期的贝叶斯课还是跑去哥大统计系上的用的还是那本BDA课本
坦白的说稀里糊涂的没听懂。。。