Redian新闻
>
有关Stochastic Gradient Descent
avatar
有关Stochastic Gradient Descent# DataSciences - 数据科学
z*3
1
我们老家有这样的习俗,家里嫁姑娘给陪送嫁妆,男方给彩礼。然后除了彩礼的钱还要给买三金,就是金项链金戒指金耳环,现在时代发达了,有些人还买金镯子,就是四金。我估计很多地方都有这样的习俗吧。我跟老公订婚的时候就因为三金的事情发生点不愉快。
那时候两个人相处很久了,到了谈婚论嫁的时间了,双方家长就约定找个时间见面让后定下来呗。男友的父亲就问我家这方面有什么要求,那当然就是彩礼和三金两样了。但是我们家乡的习俗和男友那边的不太一样,他们家那边不给彩礼,也不给三金。挺奇怪的哈,但是从我们这边的思想就根深蒂固的,自古以来这些东西都是习俗都应该的。然后男友父亲说彩礼这方面答应了,但三金我不给买。你要有本事就自己给你媳妇买。弄得我挺难受的,倒不是我非得要这个三金不可,而是我妈说我家那边不念书的小姑娘,一个个彩礼都要10万,除了这些还得买三金。别说我念了这么多年书了,再说别人家的孩子都带,凭啥我没有呢。还给我说一顿,弄得我在中间左右为难的。虽然到最后男友父亲说给买了,我和男友之间也别扭了一阵子,挺影响感情的哈。
avatar
A*s
2
老婆16岁跟我私奔,我大她3岁,跟我的时候她是处 女,所以我特别珍惜她,23岁那年
我们结婚,生了个女儿。
后来,我开始做生意,一年能赚15,6万,她一直在家带孩子,做家务,对我很好
,我对她也很好,由于她没有什么朋友为了每天晚上陪她,我从来不出去打麻将,,所
以到今天麻将不会打,扑克打的比较差,我们后来mǎi房子mǎi车子把钱都用光了,我
们双方家庭经济都不好,所以mǎi房mǎi车的钱都是我自己拿的,所有qīn戚朋友都羡
慕我们这个家庭。
前年开始生意越来越差,到后来需要她出去上班贴补家用,上班第一年她就出轨了
,我原谅了她。
今年9月份,她换了个地方上班,再次出轨,就是现在这个有点小钱的小老板,又
老又丑,认识他的人说他大概有几十万存款,有没有老婆孩子不清楚,45岁左右,这次
她主动跟我离 婚了,然后就跟他同 居了,我兄弟天天劝我不要冲动,我才没有把那个
小老头砍sǐ。女儿车子归她了,房子归我,那个小老头连车子都没有,经常用我前妻
的车,因为是女儿,所以我让给她了,我实在要做生意赚 钱,没时间带她。
现在生意渐渐的有了点起色,我求她回来,她说愿意等我2年,2年后如果我有50万
存款,她就回到我身边,我朋友不知道我求过他,我不敢跟他们说,因为他们肯定会骂
我,但是我真的好爱她,我愿意接受她,为我之前的不懂爱深深地自 责,没有她的岁
月里,我会用着派黎森维 护和保养我的性能力,期待她归来时,我会让她享受巅峰之
爱一直到老。1个多月了,我每天晚上都梦 见她,每天睡不到5个小时就醒,而且我特
别冷静,别人离 婚都mǎi醉,我偏偏不喝酒,现在就想拼命赚 钱,但是我心里也清楚
,将来她就算回来,我肯定无珐面对她,现在外面也有女人喜欢我,但是我就是没兴趣
找新女友,只想赚 钱。你们说我该怎么办,以后有钱了要不要去找她,我很确定她对
我还有感情,因为车子钥匙还有一把在我这她没要走,我要开随时可以开,我说我要去
外面闯一闯,她也不舍得我出去,我在微信上 面发以前的事情,她看了也会哭!大家
说等我存够了50万要不要去接她回来!我在网上查了,30岁女人容易出轨,我现在后悔
让她出去上班,她第二次出轨之前,我们也吵了很凶的架,而且我还提了她以前出轨的
事,我觉得我也有责任!
avatar
E*e
3
我试了一下自己写的Stochastic Gradient Descent。 简单的数据比如就只有两个
features。 结果和newton raphson 迭代的结果差不多。 但是一般feature 多了。 结
果差别很大。 我知道SGD 能保证global minimum。但几个测试结果都让人怀疑SGD是
不是很有效。同样的数据用package里的GSD,结果页差很多。但是GSD好像还是比较说
得上的算法。诸位有是么看法。
avatar
m*n
4
别搞得那么土,干嘛非要啥金首饰。。。

要给买三金,就是金项链金戒指金耳环,现在时代发达了,有些人还买金镯子,就是四
金。我估计很多地方都有这样的习俗吧。我跟老公订婚的时候就因为三金的事情发生点
不愉快。
后定下来呗。男友的父亲就问我家这方面有什么要求,那当然就是彩礼和三金两样了。
但是我们家乡的习俗和男友那边的不太一样,他们家那边不给彩礼,也不给三金。挺奇
怪的哈,但是从我们这边的思想就根深蒂固的,自古以来这些东西都是习俗都应该的。
然后男友父亲说彩礼这方面答应了,但三金我不给买。你要有本事就自己给你媳妇买。
弄得我挺难受的,倒不是我非得要这个三金不可,而是我妈说我家那边不念书的小姑娘
,一个个彩礼都要10万,除了这些还得买三金。别: 滴夷盍苏饷炊嗄晔榱耍偎当
鹑思业暮⒆佣即旧段颐挥心亍;垢宜狄欢伲梦以谥屑渥笥椅训摹K淙坏阶
詈竽杏迅盖姿蹈蛄耍液湍杏阎湟脖鹋ち艘徽笞樱τ跋旄星榈墓

【在 z****3 的大作中提到】
: 我们老家有这样的习俗,家里嫁姑娘给陪送嫁妆,男方给彩礼。然后除了彩礼的钱还要给买三金,就是金项链金戒指金耳环,现在时代发达了,有些人还买金镯子,就是四金。我估计很多地方都有这样的习俗吧。我跟老公订婚的时候就因为三金的事情发生点不愉快。
: 那时候两个人相处很久了,到了谈婚论嫁的时间了,双方家长就约定找个时间见面让后定下来呗。男友的父亲就问我家这方面有什么要求,那当然就是彩礼和三金两样了。但是我们家乡的习俗和男友那边的不太一样,他们家那边不给彩礼,也不给三金。挺奇怪的哈,但是从我们这边的思想就根深蒂固的,自古以来这些东西都是习俗都应该的。然后男友父亲说彩礼这方面答应了,但三金我不给买。你要有本事就自己给你媳妇买。弄得我挺难受的,倒不是我非得要这个三金不可,而是我妈说我家那边不念书的小姑娘,一个个彩礼都要10万,除了这些还得买三金。别说我念了这么多年书了,再说别人家的孩子都带,凭啥我没有呢。还给我说一顿,弄得我在中间左右为难的。虽然到最后男友父亲说给买了,我和男友之间也别扭了一阵子,挺影响感情的哈。

avatar
m*r
5
SGD 能保证global minimum ? 有出处吗?
avatar
c*y
6
老传统是讲三点金,咳咳
avatar
E*e
7
我记错了? 好像也是只能local minimum? 那么他的优势是是么? 好像找data
scientist 问这个问题的几率比较高?

【在 m******r 的大作中提到】
: SGD 能保证global minimum ? 有出处吗?
avatar
l*5
8
你总是想着你家那边的情况,习俗是彩礼和三金,然后你们就正大光明的要这些
为什么不想想男方呢?他们那没有这习俗,凭什么要给你家啊
各退一步就可以了,你家要求太高了
avatar
o*1
9
要是有一种方法能够保证收敛到global minimum的话,其余所有的数值方法全部不值一
提了。跟batch or mini-batch GD一样,除非是对于convex函数,否则只能收敛到
local minimum。SGD和mini-batch GD还必须让rate随step递减并趋于0,否则结果会是
绕着local minimum打转。
我理解SGD和mini-batch GD都是在sample数量太大,内存装不了,SD算不过来的情形下
,不得已采取的措施。只要rate取得合适,只有SD能保证每一步都在优化,而另外俩只
能保证大体上往优化点跑。假设SD算得过来,完全没必要用另外两种。Ng的cousera课
程上讲到过这三种算法,可以去那儿看看。
当然了,我也是半路出家。欢迎专家指正。

【在 E**********e 的大作中提到】
: 我记错了? 好像也是只能local minimum? 那么他的优势是是么? 好像找data
: scientist 问这个问题的几率比较高?

avatar
S*l
10
东北人?我们老家那也要三金,尤其农村。
avatar
E*e
11
谢谢。如果sgd的结果和newton_raphson迭代的结果在一般的数据上就差别很大的话,
怎能保证大数据上结果就准确呢。我测试的几个列子,用logistic regression,就几
百的数据,包含4,5个features,结果差别很大。像这种情况sgd 或gd 根本就没是么优
势。一种情况就是可能不同的minimum。 也许我 太纠结于两种方法希望结果的一致性
。这两种方法也许在复杂的数据上,结果本来就会不一样。让我再好好研究一下,做细
致一定点。neural network 里sgd好像用的挺多。好像效果还不错。

:要是有一种方法能够保证收敛到global minimum的话,其余所有的数值方法全部不值
一提了。跟batch or mini-batch GD一样,除非是对于convex函数,否则只能收敛到
:local minimum。SGD和mini-batch GD还必须让rate随step递减并趋于0,否则结果会
是绕着local minimum打转。
avatar
x*e
12
楼主不觉得俗么?感情好处的好就结,非要把这些物质习俗扯进来。跟你讲,钱谈多了
伤感情,嫁女儿不是卖女儿 记住了,你要是个聪明有智慧的女人就不会和别人比这比
那,你自己就能做你自己的主,自己的婚姻自己做主,有的东西不能全听父母的,婚姻
是你和你男朋友的事。你男朋友如果爱你他自然会给你买。不过这年头智慧的女人不多
avatar
d*n
13
你在干啥?NR是解方程不动点的, 优化应该用Gauss Newton 。SGD是做优化, 并不寻
找梯度为零的解,而是误差小到一定

【在 E**********e 的大作中提到】
: 我试了一下自己写的Stochastic Gradient Descent。 简单的数据比如就只有两个
: features。 结果和newton raphson 迭代的结果差不多。 但是一般feature 多了。 结
: 果差别很大。 我知道SGD 能保证global minimum。但几个测试结果都让人怀疑SGD是
: 不是很有效。同样的数据用package里的GSD,结果页差很多。但是GSD好像还是比较说
: 得上的算法。诸位有是么看法。

avatar
w*x
14
我妈也这样说,被我嘲笑了。结婚时,我两一起去买了一个800块的钻戒就婚了, 虽然
钻小,但我特喜欢, ^_^ 现在也挺开心的。被钱搞伤感情不值得,真情无价!!o(∩
∩)o...哈哈
avatar
E*e
15
不干啥。 就是想比较两种算法,了解一下。 免得面试时,说不上来。
我看了一下。 Neuton-Raphason需要找到目标函数的一次和二次direvatives, 然后根
据taylor 近似,用迭代的方法求出解。
gauss-newton不许要,可以避免求二次direvative。所说我还没试这个gauss-neutron
, 不过我估计两者获得的解在logistic regression应该会好很接近。
stochastic gd 的解就差别很大。或者way crazy。 系数有时根本就不一致,nr里正的
系数, sgd里是负的,完全不一致。 当然可能就是你说的, 不是找梯度为0的解。 而
是近似解。 在neutral network里,大家也不知道黑盒子了到底干啥, 知道得到的预
测力好久行了。
我应该比较预测的准确力,来比较两种方法的优劣。

【在 d*****n 的大作中提到】
: 你在干啥?NR是解方程不动点的, 优化应该用Gauss Newton 。SGD是做优化, 并不寻
: 找梯度为零的解,而是误差小到一定

avatar
l*e
16
男方如果能承受,那就买,不能就不买好了。如果非要买范围之外的,那就是太作了。
如果可以,那就买了,当纪念品或者传家宝呗。
avatar
w*g
17
和SGD比的不是牛顿法. 牛顿法是用来解方程的, 不是用来做优化的.
事实上就是解方程, 很多时候也是加上regularization项后转化成
优化问题. 数据量大的时候, 全量的graident descent根本没法做,
只能是SGD. 就是内存够大, SGD也会比GD收敛得快. 一般来说
batch size的最优值在1到N之间. 纯粹的stochastic GC, 也就是
batch size = 1, 有时候也会出问题.

【在 E**********e 的大作中提到】
: 我试了一下自己写的Stochastic Gradient Descent。 简单的数据比如就只有两个
: features。 结果和newton raphson 迭代的结果差不多。 但是一般feature 多了。 结
: 果差别很大。 我知道SGD 能保证global minimum。但几个测试结果都让人怀疑SGD是
: 不是很有效。同样的数据用package里的GSD,结果页差很多。但是GSD好像还是比较说
: 得上的算法。诸位有是么看法。

avatar
C*e
18
都说传统,那以前媳妇可是要包全部家务伺候公婆的。你准备这么做吗?传统挑对自己
有利的拿来说事有意思吗?
avatar
d*e
19
解方程和优化本来就是相通的。
Newton method有解方程和解优化两个版本。
拿SGD跟Newton比没啥不可以的,尤其是Newton的变种,比如各种quasi-newton方法

。 结
SGD是
较说

【在 w***g 的大作中提到】
: 和SGD比的不是牛顿法. 牛顿法是用来解方程的, 不是用来做优化的.
: 事实上就是解方程, 很多时候也是加上regularization项后转化成
: 优化问题. 数据量大的时候, 全量的graident descent根本没法做,
: 只能是SGD. 就是内存够大, SGD也会比GD收敛得快. 一般来说
: batch size的最优值在1到N之间. 纯粹的stochastic GC, 也就是
: batch size = 1, 有时候也会出问题.

avatar
T*E
20
彩礼是大头,这三金四金花不了多少钱,两三万就搞定了

要给买三金,就是金项链金戒指金耳环,现在时代发达了,有些人还买金镯子,就是四
金。我估计很多地方都有这样的习俗吧。我跟老公订婚的时候就因为三金的事情发生点
不愉快。
后定下来呗。男友的父亲就问我家这方面有什么要求,那当然就是彩礼和三金两样了。
但是我们家乡的习俗和男友那边的不太一样,他们家那边不给彩礼,也不给三金。挺奇
怪的哈,但是从我们这边的思想就根深蒂固的,自古以来这些东西都是习俗都应该的。
然后男友父亲说彩礼这方面答应了,但三金我不给买。你要有本事就自己给你媳妇买。
弄得我挺难受的,倒不是我非得要这个三金不可,而是我妈说我家那边不念书的小姑娘
,一个个彩礼都要10万,除了这些还得买三金。别�: 滴夷盍苏饷炊嗄晔榱耍
偎当鹑思业暮⒆佣即旧段颐挥心亍;垢宜狄欢伲梦以谥屑渥笥椅训摹K淙
坏阶詈竽杏迅盖姿蹈蛄耍液湍杏阎湟脖鹋ち艘徽笞樱τ跋旄星榈墓�

【在 z****3 的大作中提到】
: 我们老家有这样的习俗,家里嫁姑娘给陪送嫁妆,男方给彩礼。然后除了彩礼的钱还要给买三金,就是金项链金戒指金耳环,现在时代发达了,有些人还买金镯子,就是四金。我估计很多地方都有这样的习俗吧。我跟老公订婚的时候就因为三金的事情发生点不愉快。
: 那时候两个人相处很久了,到了谈婚论嫁的时间了,双方家长就约定找个时间见面让后定下来呗。男友的父亲就问我家这方面有什么要求,那当然就是彩礼和三金两样了。但是我们家乡的习俗和男友那边的不太一样,他们家那边不给彩礼,也不给三金。挺奇怪的哈,但是从我们这边的思想就根深蒂固的,自古以来这些东西都是习俗都应该的。然后男友父亲说彩礼这方面答应了,但三金我不给买。你要有本事就自己给你媳妇买。弄得我挺难受的,倒不是我非得要这个三金不可,而是我妈说我家那边不念书的小姑娘,一个个彩礼都要10万,除了这些还得买三金。别说我念了这么多年书了,再说别人家的孩子都带,凭啥我没有呢。还给我说一顿,弄得我在中间左右为难的。虽然到最后男友父亲说给买了,我和男友之间也别扭了一阵子,挺影响感情的哈。

avatar
E*e
21
谢谢。这就是我的意思。我只是想得到logisticregression的解。本身不是很了解解方
程和优化的区别。不过今天从新试了NR,GD,SGD,and Gauss_newton.同是和现成的
package比。结果就是NR和GN比较接近,快速,结果一致。GD需要100000次才收敛成NR
的结果。GSD和package接近,但是要比NR慢的多。当然如果数据量大的话,GSD也许是
比较好的选择。明天再试试QUASI_NEWTON。下一步开始学习neural network.再来比较
一下GSD。

:解方程和优化本来就是相通的。
avatar
c*7
22
"而是我妈说我家那边不念书的小姑娘,一个个彩礼都要10万,除了这些还得买三金"
本来就是不念书的素质低,比较俗的 ,才会要什么彩礼三金啊。。。越穷越没文化才
会要什么彩礼n金吧。。。。念书了反而不要啊,,lz这书真是白念了。。。开玩笑。
。。
avatar
f*k
23
一般能用牛顿当然用牛顿了,那个是平方收敛。QN也是gradient based method, 最多
就是线性收敛,而且收敛速度和二次项的condition number有关。
avatar
h*e
24
现在真正的穷人(几十万都拿不出来的那种)已经很少了,大部分人再穷拿出几十万来
都能行。有人觉得“我的钱就是老婆的,老婆喜欢啥就买呗。”
可有的男人不爱老婆,找个人给自己生孩子罢了,啥钱都不出,让人家娘家倒贴钱的都
有,完了孩子还得跟自己姓。也不能说这男人不要脸,谁叫那女人贱非跟他结婚呢?

【在 x******e 的大作中提到】
: 楼主不觉得俗么?感情好处的好就结,非要把这些物质习俗扯进来。跟你讲,钱谈多了
: 伤感情,嫁女儿不是卖女儿 记住了,你要是个聪明有智慧的女人就不会和别人比这比
: 那,你自己就能做你自己的主,自己的婚姻自己做主,有的东西不能全听父母的,婚姻
: 是你和你男朋友的事。你男朋友如果爱你他自然会给你买。不过这年头智慧的女人不多

avatar
d*e
25
Newton和QN的收敛都和Hessian的condition number有关。
QN是superlinear,虽然不如Newton的quadratic,但是每个iteration的计算复杂度通
常至少节省一个problem dimension的factor。所以最后通常比Newton快。
比如L-BFGS,很多时候在大规模数据上的表现远远好过SGD和Newton。

【在 f******k 的大作中提到】
: 一般能用牛顿当然用牛顿了,那个是平方收敛。QN也是gradient based method, 最多
: 就是线性收敛,而且收敛速度和二次项的condition number有关。

avatar
s*7
26
SGD相比batch gd的优势一是可以很方便处理streaming data,二是如果sample特别大
,即使可以全部读到内存里,SGD的收敛也比batch gd的computational complexity低
avatar
x*q
27
SGD 首先在DL里面得到广泛应用。原因前面提到,没必要也不大可能吧所以数据都都读
进来。实际上,mini-batch 有几大好处:
每次数据量小,参数更新的就快,学的就快;
能引入更多的噪声,有助于更好的学习;
newton 和sgd 一样 都是优化的一种方法而已。没有好坏吧,看应用场合。newton 总
的更新次数应该更少,但每次更新要比sgd更复杂。。。
另外,目前好像没有什么方法能保证找到global max/min吧。我知道的想模拟退火在这
方面还挺有用,当然也不能完全保证能找到global 的值。但比一般的还是有效些。
avatar
d*n
28
一定找到全局最优的是branch bound. 但机器学习不一定要全局最优。 dl 里用全局最
优的解效果反而不好

【在 x****q 的大作中提到】
: SGD 首先在DL里面得到广泛应用。原因前面提到,没必要也不大可能吧所以数据都都读
: 进来。实际上,mini-batch 有几大好处:
: 每次数据量小,参数更新的就快,学的就快;
: 能引入更多的噪声,有助于更好的学习;
: newton 和sgd 一样 都是优化的一种方法而已。没有好坏吧,看应用场合。newton 总
: 的更新次数应该更少,但每次更新要比sgd更复杂。。。
: 另外,目前好像没有什么方法能保证找到global max/min吧。我知道的想模拟退火在这
: 方面还挺有用,当然也不能完全保证能找到global 的值。但比一般的还是有效些。

avatar
E*e
29
我试了一下自己写的Stochastic Gradient Descent。 简单的数据比如就只有两个
features。 结果和newton raphson 迭代的结果差不多。 但是一般feature 多了。 结
果差别很大。 我知道SGD 能保证global minimum。但几个测试结果都让人怀疑SGD是
不是很有效。同样的数据用package里的GSD,结果页差很多。但是GSD好像还是比较说
得上的算法。诸位有是么看法。
avatar
m*r
30
SGD 能保证global minimum ? 有出处吗?
avatar
E*e
31
我记错了? 好像也是只能local minimum? 那么他的优势是是么? 好像找data
scientist 问这个问题的几率比较高?

【在 m******r 的大作中提到】
: SGD 能保证global minimum ? 有出处吗?
avatar
o*1
32
要是有一种方法能够保证收敛到global minimum的话,其余所有的数值方法全部不值一
提了。跟batch or mini-batch GD一样,除非是对于convex函数,否则只能收敛到
local minimum。SGD和mini-batch GD还必须让rate随step递减并趋于0,否则结果会是
绕着local minimum打转。
我理解SGD和mini-batch GD都是在sample数量太大,内存装不了,SD算不过来的情形下
,不得已采取的措施。只要rate取得合适,只有SD能保证每一步都在优化,而另外俩只
能保证大体上往优化点跑。假设SD算得过来,完全没必要用另外两种。Ng的cousera课
程上讲到过这三种算法,可以去那儿看看。
当然了,我也是半路出家。欢迎专家指正。

【在 E**********e 的大作中提到】
: 我记错了? 好像也是只能local minimum? 那么他的优势是是么? 好像找data
: scientist 问这个问题的几率比较高?

avatar
E*e
33
谢谢。如果sgd的结果和newton_raphson迭代的结果在一般的数据上就差别很大的话,
怎能保证大数据上结果就准确呢。我测试的几个列子,用logistic regression,就几
百的数据,包含4,5个features,结果差别很大。像这种情况sgd 或gd 根本就没是么优
势。一种情况就是可能不同的minimum。 也许我 太纠结于两种方法希望结果的一致性
。这两种方法也许在复杂的数据上,结果本来就会不一样。让我再好好研究一下,做细
致一定点。neural network 里sgd好像用的挺多。好像效果还不错。

:要是有一种方法能够保证收敛到global minimum的话,其余所有的数值方法全部不值
一提了。跟batch or mini-batch GD一样,除非是对于convex函数,否则只能收敛到
:local minimum。SGD和mini-batch GD还必须让rate随step递减并趋于0,否则结果会
是绕着local minimum打转。
avatar
d*n
34
你在干啥?NR是解方程不动点的, 优化应该用Gauss Newton 。SGD是做优化, 并不寻
找梯度为零的解,而是误差小到一定

【在 E**********e 的大作中提到】
: 我试了一下自己写的Stochastic Gradient Descent。 简单的数据比如就只有两个
: features。 结果和newton raphson 迭代的结果差不多。 但是一般feature 多了。 结
: 果差别很大。 我知道SGD 能保证global minimum。但几个测试结果都让人怀疑SGD是
: 不是很有效。同样的数据用package里的GSD,结果页差很多。但是GSD好像还是比较说
: 得上的算法。诸位有是么看法。

avatar
E*e
35
不干啥。 就是想比较两种算法,了解一下。 免得面试时,说不上来。
我看了一下。 Neuton-Raphason需要找到目标函数的一次和二次direvatives, 然后根
据taylor 近似,用迭代的方法求出解。
gauss-newton不许要,可以避免求二次direvative。所说我还没试这个gauss-neutron
, 不过我估计两者获得的解在logistic regression应该会好很接近。
stochastic gd 的解就差别很大。或者way crazy。 系数有时根本就不一致,nr里正的
系数, sgd里是负的,完全不一致。 当然可能就是你说的, 不是找梯度为0的解。 而
是近似解。 在neutral network里,大家也不知道黑盒子了到底干啥, 知道得到的预
测力好久行了。
我应该比较预测的准确力,来比较两种方法的优劣。

【在 d*****n 的大作中提到】
: 你在干啥?NR是解方程不动点的, 优化应该用Gauss Newton 。SGD是做优化, 并不寻
: 找梯度为零的解,而是误差小到一定

avatar
w*g
36
和SGD比的不是牛顿法. 牛顿法是用来解方程的, 不是用来做优化的.
事实上就是解方程, 很多时候也是加上regularization项后转化成
优化问题. 数据量大的时候, 全量的graident descent根本没法做,
只能是SGD. 就是内存够大, SGD也会比GD收敛得快. 一般来说
batch size的最优值在1到N之间. 纯粹的stochastic GC, 也就是
batch size = 1, 有时候也会出问题.

【在 E**********e 的大作中提到】
: 我试了一下自己写的Stochastic Gradient Descent。 简单的数据比如就只有两个
: features。 结果和newton raphson 迭代的结果差不多。 但是一般feature 多了。 结
: 果差别很大。 我知道SGD 能保证global minimum。但几个测试结果都让人怀疑SGD是
: 不是很有效。同样的数据用package里的GSD,结果页差很多。但是GSD好像还是比较说
: 得上的算法。诸位有是么看法。

avatar
d*e
37
解方程和优化本来就是相通的。
Newton method有解方程和解优化两个版本。
拿SGD跟Newton比没啥不可以的,尤其是Newton的变种,比如各种quasi-newton方法

。 结
SGD是
较说

【在 w***g 的大作中提到】
: 和SGD比的不是牛顿法. 牛顿法是用来解方程的, 不是用来做优化的.
: 事实上就是解方程, 很多时候也是加上regularization项后转化成
: 优化问题. 数据量大的时候, 全量的graident descent根本没法做,
: 只能是SGD. 就是内存够大, SGD也会比GD收敛得快. 一般来说
: batch size的最优值在1到N之间. 纯粹的stochastic GC, 也就是
: batch size = 1, 有时候也会出问题.

avatar
E*e
38
谢谢。这就是我的意思。我只是想得到logisticregression的解。本身不是很了解解方
程和优化的区别。不过今天从新试了NR,GD,SGD,and Gauss_newton.同是和现成的
package比。结果就是NR和GN比较接近,快速,结果一致。GD需要100000次才收敛成NR
的结果。GSD和package接近,但是要比NR慢的多。当然如果数据量大的话,GSD也许是
比较好的选择。明天再试试QUASI_NEWTON。下一步开始学习neural network.再来比较
一下GSD。

:解方程和优化本来就是相通的。
avatar
f*k
39
一般能用牛顿当然用牛顿了,那个是平方收敛。QN也是gradient based method, 最多
就是线性收敛,而且收敛速度和二次项的condition number有关。
avatar
d*e
40
Newton和QN的收敛都和Hessian的condition number有关。
QN是superlinear,虽然不如Newton的quadratic,但是每个iteration的计算复杂度通
常至少节省一个problem dimension的factor。所以最后通常比Newton快。
比如L-BFGS,很多时候在大规模数据上的表现远远好过SGD和Newton。

【在 f******k 的大作中提到】
: 一般能用牛顿当然用牛顿了,那个是平方收敛。QN也是gradient based method, 最多
: 就是线性收敛,而且收敛速度和二次项的condition number有关。

avatar
s*7
41
SGD相比batch gd的优势一是可以很方便处理streaming data,二是如果sample特别大
,即使可以全部读到内存里,SGD的收敛也比batch gd的computational complexity低
avatar
x*q
42
SGD 首先在DL里面得到广泛应用。原因前面提到,没必要也不大可能吧所以数据都都读
进来。实际上,mini-batch 有几大好处:
每次数据量小,参数更新的就快,学的就快;
能引入更多的噪声,有助于更好的学习;
newton 和sgd 一样 都是优化的一种方法而已。没有好坏吧,看应用场合。newton 总
的更新次数应该更少,但每次更新要比sgd更复杂。。。
另外,目前好像没有什么方法能保证找到global max/min吧。我知道的想模拟退火在这
方面还挺有用,当然也不能完全保证能找到global 的值。但比一般的还是有效些。
avatar
d*n
43
一定找到全局最优的是branch bound. 但机器学习不一定要全局最优。 dl 里用全局最
优的解效果反而不好

【在 x****q 的大作中提到】
: SGD 首先在DL里面得到广泛应用。原因前面提到,没必要也不大可能吧所以数据都都读
: 进来。实际上,mini-batch 有几大好处:
: 每次数据量小,参数更新的就快,学的就快;
: 能引入更多的噪声,有助于更好的学习;
: newton 和sgd 一样 都是优化的一种方法而已。没有好坏吧,看应用场合。newton 总
: 的更新次数应该更少,但每次更新要比sgd更复杂。。。
: 另外,目前好像没有什么方法能保证找到global max/min吧。我知道的想模拟退火在这
: 方面还挺有用,当然也不能完全保证能找到global 的值。但比一般的还是有效些。

avatar
r*n
44
所有非线性基于梯度的优化算法都是解一个隐性的不动点问题

【在 d*****n 的大作中提到】
: 你在干啥?NR是解方程不动点的, 优化应该用Gauss Newton 。SGD是做优化, 并不寻
: 找梯度为零的解,而是误差小到一定

avatar
r*n
45
SGD的主要优势在于可用于在线算法上而且更新算法简单,自动求导算法实现很容易,
所以在机器人里面和深度网络里面基本上是首选,对于有run time 性能要求的场合,
任何二阶算法每次迭代都太慢

【在 d******e 的大作中提到】
: Newton和QN的收敛都和Hessian的condition number有关。
: QN是superlinear,虽然不如Newton的quadratic,但是每个iteration的计算复杂度通
: 常至少节省一个problem dimension的factor。所以最后通常比Newton快。
: 比如L-BFGS,很多时候在大规模数据上的表现远远好过SGD和Newton。

avatar
r*n
46
所有非线性基于梯度的优化算法都是解一个隐性的不动点问题

【在 d*****n 的大作中提到】
: 你在干啥?NR是解方程不动点的, 优化应该用Gauss Newton 。SGD是做优化, 并不寻
: 找梯度为零的解,而是误差小到一定

avatar
r*n
47
SGD的主要优势在于可用于在线算法上而且更新算法简单,自动求导算法实现很容易,
所以在机器人里面和深度网络里面基本上是首选,对于有run time 性能要求的场合,
任何二阶算法每次迭代都太慢

【在 d******e 的大作中提到】
: Newton和QN的收敛都和Hessian的condition number有关。
: QN是superlinear,虽然不如Newton的quadratic,但是每个iteration的计算复杂度通
: 常至少节省一个problem dimension的factor。所以最后通常比Newton快。
: 比如L-BFGS,很多时候在大规模数据上的表现远远好过SGD和Newton。

avatar
r*e
48
你需要去读一下相关的材料,理解Gradient Descent,Stochastic Gradient Descent
和Batch Gradient Descent的区别和联系。一般来说,计算梯度如果在数据量很大的时
候根本算不了,就算内存足够大计算速度也很慢,随机梯度下降法减少了每一步计算梯
度所需要的数据量,大大加快了计算速度。尽管需要的iteration增加了指数级别但总
的计算时间缩短了。在很多real-world online learning的问题中SGD很好的解决了由
于数据进来的方式是sequential的导致GD不能work的情况,而且通过增加iteration的
次数来有效减少每一次iteration所需要的计算量,是一个非常有效的算法。

【在 E**********e 的大作中提到】
: 我试了一下自己写的Stochastic Gradient Descent。 简单的数据比如就只有两个
: features。 结果和newton raphson 迭代的结果差不多。 但是一般feature 多了。 结
: 果差别很大。 我知道SGD 能保证global minimum。但几个测试结果都让人怀疑SGD是
: 不是很有效。同样的数据用package里的GSD,结果页差很多。但是GSD好像还是比较说
: 得上的算法。诸位有是么看法。

avatar
b*1
49
各位大神各种优化,bound把我看晕了。怀疑学到假machine learning了。小弟猜的,
不对请轻拍,也算长知识了。
logistic loss是convex的,所以不管一阶二阶牛,都能找到global min。所以2个
feature的例子两个算法差不多。feature多了,NR还是能快速找到global因为二阶的关
系。SGD的话就要看楼主的参数了,应该肯定比两个feature要多迭代,所以两个算法不
容易结果一样。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。