Redian新闻
>
半懂不懂的reviewer真麻烦
avatar
w*f
2
不知道为什么自从这次找工作以来我就特别不想上班了,每个月就挣那么一点钱,每
天还要早起,晚上回来都不知道什么时候了。我觉得一点都不值得。人家那些自己做生
意的,跟我们一样辛苦,但是人家挣得比我们多好几倍。所以我觉得现在上班真的一点
前途都没有,真心的还不如自己去干点事情呢。
唉,可是自己手里还没有钱,现在如果有人能投我一点钱我真的都想自己去干了。不
管怎么样我自己干肯定比上班好很多。还不用听别人指挥,想什么时候就什么时候上班
,挣的还多。
avatar
H*y
3
你们懂的~~
我先抛砖引玉2个
avatar
g*n
4
不一定是愿意为你照照片的人,也不一定是为你一掷千金的人,
但一定是"当着你的面放屁的人".
80, 90 后的人知道最后这点是谁说的嘛? ^_^
avatar
l*o
5
现在给艾迪吃raw, 有时还是会担心营养不够均衡,于是今天把狗粮的成分都拿来研究
了一下,找的都是large breed adult的成分(如果那个牌子有这种的话), 发现
Innova标的非常详细,各种微量元素都标了,其它有的标的多点,有的少点,很难比较
。鉴于一般买肉也不会标明那么多成分, 所以还是只能考虑几种最基础的, 而且由于
是和raw比较, protein%就不管了。换算到1kcal来看:
Innova Wellness Taste of the Wild
1 kcal 1 kcal 1kcal
Fat mg 36.31 32.74 48.40
Fiber mg 7.49 13.39 8.07
Calcium mg 2.30 3.57
Phosphorous mg
avatar
l*x
6
半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
,但又突然来一句“I've never heard of the natural gradient being defined
using a different metric than the Fisher metric”,让人大跌眼镜。
avatar
l*n
7
多看paper然后使劲想idea
多参加conference听别人talk
avatar
g*1
8
不懂得珍惜的人,就是给你一座金山,你也不会快乐;不懂得宽容的人,再多的朋友也
会离开你;不懂得感恩的人,再聪明也难以成功;不懂得修行的人,念再多的经也不能
成佛;不懂得满足的人,再富有也难以幸福;不懂得慈悲的人,再精进也难以解脱。
avatar
i*n
9
明明素3个。。。。
avatar
a*o
10
综合来看那一种比较好呢?

【在 l*****o 的大作中提到】
: 现在给艾迪吃raw, 有时还是会担心营养不够均衡,于是今天把狗粮的成分都拿来研究
: 了一下,找的都是large breed adult的成分(如果那个牌子有这种的话), 发现
: Innova标的非常详细,各种微量元素都标了,其它有的标的多点,有的少点,很难比较
: 。鉴于一般买肉也不会标明那么多成分, 所以还是只能考虑几种最基础的, 而且由于
: 是和raw比较, protein%就不管了。换算到1kcal来看:
: Innova Wellness Taste of the Wild
: 1 kcal 1 kcal 1kcal
: Fat mg 36.31 32.74 48.40
: Fiber mg 7.49 13.39 8.07
: Calcium mg 2.30 3.57

avatar
l*x
11
at the end还要再来一句The reviewer is absolutely certain that the evaluation
is correct and very familiar with the relevant literature!
avatar
m*1
12
追踪国际热点也很简单。举个例子:美国化学家从太平洋杉树皮提取出了抗
癌活性物质紫杉醇。你就可以看看树叶、树根、果实中是否也含紫杉醇。而且还
可以研究东北杉树皮、叶、果、根里面是否也含这样的物质。既然紫杉醇可以抗
癌,那么甲基、乙基、丙基、丁基紫杉醇,甲酰基、乙酰基、丙酰基、丁酰基紫
杉醇,甲酰胺基、乙酰胺基、丙酰胺基、丁酰胺基紫杉醇……等衍生物是否也抗
癌(有些还可以根据构效关系推测一下),它们之间的作用强弱、起效快慢、维
持时间长短、毒性大小有无差异,都可以成为“国家重点课题”。靠这个路数拿
到院士学位的还不在少数。若国家想宣传,还可以来一个“我国科学家首次发现
2-甲基 -3-乙酰基-4-丙酰胺基紫杉醇具有强大的抗癌活性”。
再举个生理病理药理生化(所谓三理一化,基础医学的重点课)研究领域的
例子。一旦有谁发现了一种体内活性物质,众人就像苍蝇见了血一般的扑上去,
把与之相关的内容做透做烂。比如某科学家发现NO可以扩张大鼠冠状动脉,于是
咱就可以做其他实验动物种属如兔、小鼠、豚鼠、犬的冠状动脉,这些动物不同
部位的血管,如脑血管、肾血管、肺血管、腹主动脉、静脉血管,不仅可以研究
正常血管,而且还可以复制N个病理模型,探讨疾病状态下NO对血管的影响。条
件好点的,还可以做NO舒张血管机制的探讨,从整体水平、器官水平、细胞水平、
分子水平来做研究。如对血管平滑肌细胞的影响、对各种与血管舒缩相关酶活性
的影响、有关基因的影响、信号转到通路的影响等。而且知道了这个路数,只要
有人发现了舒张血管的活性物质或者合成了新的舒张血管药物,都可以照此办理,
毫无思路可言,基本上是力气活,只要有“日,歇歇再日”的那种精神,发篇文
章真不是什么难事。
Reference:
TexasCowgirl (girl), 人至痞则无敌——国内学术现状的精彩自述, , 信区: Faculty
http://www.mitbbs.com/article_t/Faculty/31538087.html
avatar
l*h
13
我也来贡献两张~

【在 H**********y 的大作中提到】
: 你们懂的~~
: 我先抛砖引玉2个

avatar
l*o
14
这个很难说啊。。。估计都差不多吧。。。
我是把几个好牌子的成分平均值拿来做喂raw的参考.

【在 a**o 的大作中提到】
: 综合来看那一种比较好呢?
avatar
g*t
15
我怀疑你迟早会没兴趣写文章。
机器学习,神经网络,软计算等等当年都是没人搭理的,even被叫做伪科学的东西。
现在流行了,不少人卡住位置的人就开始假装自己是“科学家”欺负人。非常令人不愉
快。

【在 l******x 的大作中提到】
: 半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
: 不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
: AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
: ,但又突然来一句“I've never heard of the natural gradient being defined
: using a different metric than the Fisher metric”,让人大跌眼镜。

avatar
l*h
16
再来张自己手腕上的纹身作为本版BONUS,大家看过就算,不参与版标竞选哦,嘿嘿

【在 l**h 的大作中提到】
: 我也来贡献两张~
avatar
a*o
17
哦!这倒是聪明的办法
我现在只用肉汤骗骗她俩 ^_^ 以后在来学习

【在 l*****o 的大作中提到】
: 这个很难说啊。。。估计都差不多吧。。。
: 我是把几个好牌子的成分平均值拿来做喂raw的参考.

avatar
g*t
18
the link did not work?

【在 l******x 的大作中提到】
: 半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
: 不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
: AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
: ,但又突然来一句“I've never heard of the natural gradient being defined
: using a different metric than the Fisher metric”,让人大跌眼镜。

avatar
H*y
19
wow~~ i vote for this
haha

再来张自己手腕上的纹身作为本版BONUS,大家看过就算,不参与版标竞选哦,嘿嘿

【在 l**h 的大作中提到】
: 再来张自己手腕上的纹身作为本版BONUS,大家看过就算,不参与版标竞选哦,嘿嘿
avatar
d*c
20
为啥Glucosamine和Chondroitin的研究结果不同?
看了好多预防和解决joint的保健品,貌似都加了Glucosamine和Chondroitin
Omega6貌似要慎重加,比例不对的话有副作用(对人的研究结论)。。

【在 l*****o 的大作中提到】
: 现在给艾迪吃raw, 有时还是会担心营养不够均衡,于是今天把狗粮的成分都拿来研究
: 了一下,找的都是large breed adult的成分(如果那个牌子有这种的话), 发现
: Innova标的非常详细,各种微量元素都标了,其它有的标的多点,有的少点,很难比较
: 。鉴于一般买肉也不会标明那么多成分, 所以还是只能考虑几种最基础的, 而且由于
: 是和raw比较, protein%就不管了。换算到1kcal来看:
: Innova Wellness Taste of the Wild
: 1 kcal 1 kcal 1kcal
: Fat mg 36.31 32.74 48.40
: Fiber mg 7.49 13.39 8.07
: Calcium mg 2.30 3.57

avatar
l*h
22
。。。不听话的小孩!

【在 H**********y 的大作中提到】
: wow~~ i vote for this
: haha
:
: 再来张自己手腕上的纹身作为本版BONUS,大家看过就算,不参与版标竞选哦,嘿嘿

avatar
l*o
23
wiki上的说法是:
Oral glucosamine is commonly used for the treatment of osteoarthritis. Since
glucosamine is a precursor for glycosaminoglycans, and glycosaminoglycans
are a major component of joint cartilage, supplemental glucosamine may help
to prevent cartilage degeneration and treat arthritis. Its use as a therapy
for osteoarthritis appears safe, but there is conflicting evidence as to its
effectiveness. A Cochrane 2005 meta-analysis of glucosamine for
osteoarthritis found that only "Rotta" prepar

【在 d****c 的大作中提到】
: 为啥Glucosamine和Chondroitin的研究结果不同?
: 看了好多预防和解决joint的保健品,貌似都加了Glucosamine和Chondroitin
: Omega6貌似要慎重加,比例不对的话有副作用(对人的研究结论)。。

avatar
h*c
24
没错,这些人根本对DL没贡献,但是占了位置就可以伪装成权威了

【在 g****t 的大作中提到】
: 我怀疑你迟早会没兴趣写文章。
: 机器学习,神经网络,软计算等等当年都是没人搭理的,even被叫做伪科学的东西。
: 现在流行了,不少人卡住位置的人就开始假装自己是“科学家”欺负人。非常令人不愉
: 快。

avatar
i*n
25

说,除了手腕,臂膀,你哪里还有纹身!!!!

【在 l**h 的大作中提到】
: 再来张自己手腕上的纹身作为本版BONUS,大家看过就算,不参与版标竞选哦,嘿嘿
avatar
d*c
26
止痛可能不行,但我还是相信它有保健功能滴。。

Since
help
therapy
its
studies

【在 l*****o 的大作中提到】
: wiki上的说法是:
: Oral glucosamine is commonly used for the treatment of osteoarthritis. Since
: glucosamine is a precursor for glycosaminoglycans, and glycosaminoglycans
: are a major component of joint cartilage, supplemental glucosamine may help
: to prevent cartilage degeneration and treat arthritis. Its use as a therapy
: for osteoarthritis appears safe, but there is conflicting evidence as to its
: effectiveness. A Cochrane 2005 meta-analysis of glucosamine for
: osteoarthritis found that only "Rotta" prepar

avatar
l*m
27
你的分数还不错, ICLR接受率不是太低。那个评审也不是太可气。
主要原因你的写作方式十分不CS,故事没有讲的很精彩,很多地方讨论欠缺。

【在 l******x 的大作中提到】
: 半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
: 不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
: AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
: ,但又突然来一句“I've never heard of the natural gradient being defined
: using a different metric than the Fisher metric”,让人大跌眼镜。

avatar
l*h
28
不~告~诉~你~

【在 i****n 的大作中提到】
:
: 说,除了手腕,臂膀,你哪里还有纹身!!!!

avatar
g*t
29
话说回来。有一点我和其他两个reviewer看法类似。作者的文章和lie group似乎没有
关系。用作标题不太合适。但假如我是reviewer,我不会说这是个缺点。


: https://openreview.net/forum?id=Bye5SiAqKX

: 不work?ICLR2019, Learning Preconditioners on Lie Groups

: 看了些文章的comments,很多CS conf的评论很猛啊!



【在 l******x 的大作中提到】
: https://openreview.net/forum?id=Bye5SiAqKX
: 不work?ICLR2019, Learning Preconditioners on Lie Groups
: 看了些文章的comments,很多CS conf的评论很猛啊!

avatar
t*c
30
哈哈,44,这么多纹身呀,这个纹的时候能选颜色么?

【在 l**h 的大作中提到】
: 再来张自己手腕上的纹身作为本版BONUS,大家看过就算,不参与版标竞选哦,嘿嘿
avatar
l*m
31
你太NICE了,呵呵。

【在 g****t 的大作中提到】
: 话说回来。有一点我和其他两个reviewer看法类似。作者的文章和lie group似乎没有
: 关系。用作标题不太合适。但假如我是reviewer,我不会说这是个缺点。
:
:
: https://openreview.net/forum?id=Bye5SiAqKX
:
: 不work?ICLR2019, Learning Preconditioners on Lie Groups
:
: 看了些文章的comments,很多CS conf的评论很猛啊!
:

avatar
j*n
32

vote for 第一张
avatar
l*m
33
我仔细看了reviewer 2,似乎不是小毛孩,rebuttal不是太好搞

【在 l*******m 的大作中提到】
: 你的分数还不错, ICLR接受率不是太低。那个评审也不是太可气。
: 主要原因你的写作方式十分不CS,故事没有讲的很精彩,很多地方讨论欠缺。

avatar
a*s
34
水瓶座
avatar
c*v
35
一般支持的,就都是二阶法或者牛顿法这个社区的。当然希望类似的路径的
文章发表。growing the community. 最多就是修改后发表。
一般不支持的,那多半不是这个分支的。所以就造成了不同意发表的,多数都是不懂的
这种现象。
reviewer 2假如不是做二阶法的话确实不容易搞。不会和你讲理。

【在 l*******m 的大作中提到】
: 我仔细看了reviewer 2,似乎不是小毛孩,rebuttal不是太好搞
avatar
s*m
36
贡献一下~~~ 各位水瓶月快乐!:)
avatar
l*x
37
那个reviewer看似是个新手,喜欢用些比较绝对的词(very, really, never,...),大
部分comments比较空泛,不好反驳。少量comments比较具体,然后就露馅了,比较容易
反驳。比如谈谈自然梯度就发现他完全没有理解什么是自然梯度;谈谈Lie group也是
这样,最后建议我用certain classes of invertible matrices closed under
standard operations(这到底是李代数,李群还是什么东西?)来替代Lie group。烦
就烦那种不懂装懂的reviewer的假大空的comments。
avatar
s*m
38
cool! 等我找到完美设计的时候,我也纹一个,初步考虑在肩上:)

【在 l**h 的大作中提到】
: 再来张自己手腕上的纹身作为本版BONUS,大家看过就算,不参与版标竞选哦,嘿嘿
avatar
c*v
39
老手直接就说你没有novelty,就完事了。

【在 l******x 的大作中提到】
: 那个reviewer看似是个新手,喜欢用些比较绝对的词(very, really, never,...),大
: 部分comments比较空泛,不好反驳。少量comments比较具体,然后就露馅了,比较容易
: 反驳。比如谈谈自然梯度就发现他完全没有理解什么是自然梯度;谈谈Lie group也是
: 这样,最后建议我用certain classes of invertible matrices closed under
: standard operations(这到底是李代数,李群还是什么东西?)来替代Lie group。烦
: 就烦那种不懂装懂的reviewer的假大空的comments。

avatar
z*a
40
握手握手
你发的几个我很喜欢
果然是同族~

【在 H**********y 的大作中提到】
: 你们懂的~~
: 我先抛砖引玉2个

avatar
c*v
41
因为我从不据稿。
所以后来办绿卡,科学家给我写了很好的推荐信.
认为我是知名科学家。LoL

【在 l*******m 的大作中提到】
: 你太NICE了,呵呵。
avatar
z*a
42
赞呀
版二的纹身都上了
我觉得稍微PS下,或者版二再照个大点,清晰点的,完全可以作为版标呀,呵呵

【在 l**h 的大作中提到】
: 再来张自己手腕上的纹身作为本版BONUS,大家看过就算,不参与版标竞选哦,嘿嘿
avatar
f*2
43
现在还从事申稿吗?还是退居二线了


: 因为我从不据稿。

: 所以后来办绿卡,科学家给我写了很好的推荐信.

: 认为我是知名科学家。LoL



【在 c*******v 的大作中提到】
: 因为我从不据稿。
: 所以后来办绿卡,科学家给我写了很好的推荐信.
: 认为我是知名科学家。LoL

avatar
l*h
44
我喜欢你的第二张,蓝色的很好看

【在 s******m 的大作中提到】
: 贡献一下~~~ 各位水瓶月快乐!:)
avatar
g*t
45
不从事。很不幸,我以前老板得了一种奇怪的绝症。
当教授的白人师兄本来是继承人,
离婚,找了个胖老黑做新女友。我们这个小圈子结束了。

【在 f******2 的大作中提到】
: 现在还从事申稿吗?还是退居二线了
:
:
: 因为我从不据稿。
:
: 所以后来办绿卡,科学家给我写了很好的推荐信.
:
: 认为我是知名科学家。LoL
:

avatar
l*h
46
能啊,什么颜色都可以,我自己喜欢黑色的

【在 t******c 的大作中提到】
: 哈哈,44,这么多纹身呀,这个纹的时候能选颜色么?
avatar
l*h
48
我认识个巨蟹男,在后腰这个有个大螃蟹,等巨蟹月的时候我拍了给大家看

【在 s******m 的大作中提到】
: cool! 等我找到完美设计的时候,我也纹一个,初步考虑在肩上:)
avatar
m*r
49
我猜是brain cancer.
智商高了就容易得这个。

【在 g****t 的大作中提到】
: 不从事。很不幸,我以前老板得了一种奇怪的绝症。
: 当教授的白人师兄本来是继承人,
: 离婚,找了个胖老黑做新女友。我们这个小圈子结束了。

avatar
l*h
50
第一张水印太大,不行啊,打广告么

【在 j**n 的大作中提到】
: 赞
: vote for 第一张

avatar
l*x
51
跑了几天,momentum和adam这些方法对优化word embedding matrix这种大矩阵稀疏梯
度的问题还是比最简单的SGD差一大截啊,sparse adam好一点,但和SGD还是差一截。
对于很多问题,SGD或SGD+momentum就够了。
avatar
H*y
52

这么好玩

【在 l**h 的大作中提到】
: 我认识个巨蟹男,在后腰这个有个大螃蟹,等巨蟹月的时候我拍了给大家看
avatar
x*u
53
优化诡异的模型步子不能跨的太大

【在 l******x 的大作中提到】
: 跑了几天,momentum和adam这些方法对优化word embedding matrix这种大矩阵稀疏梯
: 度的问题还是比最简单的SGD差一大截啊,sparse adam好一点,但和SGD还是差一截。
: 对于很多问题,SGD或SGD+momentum就够了。

avatar
H*y
54
你不说我还没发现ft

第一张水印太大,不行啊,打广告么

【在 l**h 的大作中提到】
: 第一张水印太大,不行啊,打广告么
avatar
l*x
55
不像step的问题,step都search过,也annealing step了。
大概是Adam的收敛条件太苛刻,要求最后梯度是unimodal分布,对word这种很稀疏的
feature,谈其梯度是否是unimodal分布没什么意义。
Sparse Adam又引入新问题,对很少出现的word,smoothed后的embedding vector的梯
度会seriously out of date。
avatar
s*m
56
这要等到猴年马月呀~~~强烈要求水瓶月就看!!!:)等巨蟹月咱们再给他回礼,
呵呵呵。。。

【在 l**h 的大作中提到】
: 我认识个巨蟹男,在后腰这个有个大螃蟹,等巨蟹月的时候我拍了给大家看
avatar
g*t
57
我觉得不管什么问题都可以用步长来解释。如果不是步长的大小问题,那就是步长的维
度问题。
Adams的步长beta1,beta2 对整个梯度g都是一个数。
实际上应该是对梯度的不同元素乘以不同的步长。不然假如
g里面的元素的收敛步长的region 没有交集,那就调不出来合适的步长。
这些问题都和LMS滤波器类似。Adams 类似于所谓的normalized LMS之类的东西,收敛
判据也类似。
发明LMS那位宗师明明做的是ANN SGD,因为是ANN低谷。
改了个名字摇身一变成了数字滤波器第一人。
还有一个办法。找个二次型问题,精确解用牛顿法一步就可以求出来的。很多时候其他
的近似办法无法找到合适的步长。所以精确的二次型问题可以看出梯度法或者简单的自
适应梯度法例如adams的不足。
以上看法正确与否,可以通过把beta1 变成一个向量,然后让梯度分量大的乘以小的步
长,小的乘以大的步长来观察是否有改善。


: 不像step的问题,step都search过,也annealing step了。

: 大概是Adam的收敛条件太苛刻,要求最后梯度是unimodal分布,对word这
种很稀
疏的

: feature,谈其梯度是否是unimodal分布没什么意义。

: Sparse Adam又引入新问题,对很少出现的word,smoothed后的embedding
vector的梯

: 度会seriously out of date。



【在 l******x 的大作中提到】
: 不像step的问题,step都search过,也annealing step了。
: 大概是Adam的收敛条件太苛刻,要求最后梯度是unimodal分布,对word这种很稀疏的
: feature,谈其梯度是否是unimodal分布没什么意义。
: Sparse Adam又引入新问题,对很少出现的word,smoothed后的embedding vector的梯
: 度会seriously out of date。

avatar
s*m
58
嗯,知道的好多瓶子都喜欢蓝色呢~
blue is the color of being spiritual : )

【在 l**h 的大作中提到】
: 我喜欢你的第二张,蓝色的很好看
avatar
L*8
59
"实际上应该是对梯度的不同元素乘以不同的步长"
这还是原来梯度方向么?

【在 g****t 的大作中提到】
: 我觉得不管什么问题都可以用步长来解释。如果不是步长的大小问题,那就是步长的维
: 度问题。
: Adams的步长beta1,beta2 对整个梯度g都是一个数。
: 实际上应该是对梯度的不同元素乘以不同的步长。不然假如
: g里面的元素的收敛步长的region 没有交集,那就调不出来合适的步长。
: 这些问题都和LMS滤波器类似。Adams 类似于所谓的normalized LMS之类的东西,收敛
: 判据也类似。
: 发明LMS那位宗师明明做的是ANN SGD,因为是ANN低谷。
: 改了个名字摇身一变成了数字滤波器第一人。
: 还有一个办法。找个二次型问题,精确解用牛顿法一步就可以求出来的。很多时候其他

avatar
s*c
60
水平的喜欢孤独,飞翔,水,水...

【在 H**********y 的大作中提到】
: 你们懂的~~
: 我先抛砖引玉2个

avatar
g*t
61
为什么要抱着简单的梯度update?
三个变量的简单二次型问题,有精确解的那种。SGD固定步长都可以不收敛。不信你试
一下。假如
海赛的特征根相差巨大的话。
因为一个分量步长要小于最大特征根的倒数才能收敛。另一边如果步长这样小就会导致
有的分量只有
极慢的更新。


: "实际上应该是对梯度的不同元素乘以不同的步长"

: 这还是原来梯度方向么?



【在 L****8 的大作中提到】
: "实际上应该是对梯度的不同元素乘以不同的步长"
: 这还是原来梯度方向么?

avatar
l*s
62
顶第一个!

【在 H**********y 的大作中提到】
: 你们懂的~~
: 我先抛砖引玉2个

avatar
l*x
63
把beta1和beta2拿来当步长搜是在蛮干。Adam有四个参数,eps和步长比较重要。你要
是四个参数都搜一遍,一个搜10个点,搜一次4个小时,如果你只有一个gpu,你需要
10000*4/24/30/12=4.6年才能解决一个小问题!最终大概搜到一个和SGD类似的解(
beta很小,eps和步长很大),但这能有什么意义啊?本质上还是adam的收敛条件太苛
刻(对于典型的beta值)。
avatar
H*y
64
wow,谢谢大牛出手
四四,现在喜欢哪个都可以随便放了~~~

顶第一个!

【在 l*******s 的大作中提到】
: 顶第一个!
avatar
L*8
65
adam这个算法很多人用 为啥? 既然收敛条件苛刻

【在 l******x 的大作中提到】
: 把beta1和beta2拿来当步长搜是在蛮干。Adam有四个参数,eps和步长比较重要。你要
: 是四个参数都搜一遍,一个搜10个点,搜一次4个小时,如果你只有一个gpu,你需要
: 10000*4/24/30/12=4.6年才能解决一个小问题!最终大概搜到一个和SGD类似的解(
: beta很小,eps和步长很大),但这能有什么意义啊?本质上还是adam的收敛条件太苛
: 刻(对于典型的beta值)。

avatar
l*h
66
好啊,那我来换第一张图吧

【在 H**********y 的大作中提到】
: wow,谢谢大牛出手
: 四四,现在喜欢哪个都可以随便放了~~~
:
: 顶第一个!

avatar
l*x
67
adam简单直观,还可能由于一些偶然的因素,毕竟大部分人不会追究算法的细节。
用的多抱怨也会多。比如很多人抱怨adam的generalization性能差;常常不收敛(比如
https://openreview.net/forum?id=ryQu7f-RZ),因此adam上又弄出了一堆变种,越
来越复杂。
avatar
l*x
68
其实加上一个momentum就会让在nonconvex和有梯度噪声下的分析大大复杂化。即便用
足够小的步长,momentum一般也不会单调收敛(所谓heavy ball method)。
Adam走的更远,其收敛依赖于更多条件。一般使用者很少了解这些细节。
avatar
g*t
69
我的意思是。Adams如果出问题,
最大的可能是因为移动平均那一步,给的时间常数太少。
对梯度的每个element求移动平均。这个有意义。但是
都按照同一个时间常数(Beta1)求移动平均,这点我认为没有必然的根据。
一个函数对参数的偏导数有3个,为啥这三个用同一个时间常数来滤波?这没有什么道
理。除非这三个运动的mode 非常接近而且不耦合。


: 把beta1和beta2拿来当步长搜是在蛮干。Adam有四个参数,eps和步长比
较重要
。你要

: 是四个参数都搜一遍,一个搜10个点,搜一次4个小时,如果你只有一个
gpu,你
需要

: 10000*4/24/30/12=4.6年才能解决一个小问题!最终大概搜到一个和SGD
类似的
解(

: beta很小,eps和步长很大),但这能有什么意义啊?本质上还是adam的
收敛条
件太苛

: 刻(对于典型的beta值)。



【在 l******x 的大作中提到】
: 其实加上一个momentum就会让在nonconvex和有梯度噪声下的分析大大复杂化。即便用
: 足够小的步长,momentum一般也不会单调收敛(所谓heavy ball method)。
: Adam走的更远,其收敛依赖于更多条件。一般使用者很少了解这些细节。

avatar
g*t
70
Normalized LMS是类似的算法。已经广泛应用在各种数字滤波场合几十年了。主因之一
是假如只用beta 1那个部分,也就是SGD.
各分量的尺度和单位很可能无法对齐。所以那个beta 2的
部分有用并且速度快。
另外懂的人可以看出来物理意义。爱因斯坦维诺定律可以连接随机信号的时域和频域分
析。大致来说,beta 2那部分算是高通。
实际上来讲。Adams和其他的两参数对步长进行滤波的办法频域上可以是等价的。你不
一定要
用Adams的具体形式。只要把过去的梯度进行两参数带通滤波,效果应该是类似的。


: adam这个算法很多人用 为啥? 既然收敛条件苛刻



【在 L****8 的大作中提到】
: adam这个算法很多人用 为啥? 既然收敛条件苛刻
avatar
l*x
71
NLMS那个input energy是Hessian的最大特征值的bound,因此step size是well
normalized。
Adam是从regret analysis得出的,不trial-and-error,你根本不知道合适的步长。
NLMS的分母那部分没有开根号;Adam的分母那部分开根号。这两个量纲都对不上。
avatar
l*x
72
我觉得有些似是而非的类比(没有数学依据)比较危险。就像adam,rmsprop,有人说
由于它们用normalized的梯度,因此能放大出现次数少的feature的梯度,因此收敛快
。这就是典型的误解。这些方法恰恰对sparse的feature表现很差,因此才有各种
sparse,lazy update的version。很多regret analysis要求梯度是unimodal分布,因
此所有的feature都要频繁出现,这样各个gradient才能接近高斯分布。
avatar
g*t
73
各种AI都是似是而非的类比。导致什么人都可以出个启发式的馊主意。所以成了过街老
鼠。这是历史教训。
但是信息论,自控,滤波什么的文献里到处都是各种中学数学竞赛程度的不等式估计,
于是自己把自己作死了。我认为这是另一方面的历史教训。
对我个人而言。Einstein-马赫的办法我认为很好。理想实验可以比数学论证更快的帮
助思考。
例如一个概率不等式,未必要写不等式来证明。构造一个撒骰子的过程,然后写清楚观
察,
也是证明。没有数学依据不等于没有依据。
有了数学依据也不一定就是依据。任何一个数学符号都是纸上的,没有香味没有质量。
如何可以成为
有质量,温度的实体的依据?数学到最后总要碰到这层困难。我说的不是逻辑佯谬。我
年轻时候念过布尔巴基的书。训练过many years数学证明。
现在可以感受到这一层困难。

【在 l******x 的大作中提到】
: 我觉得有些似是而非的类比(没有数学依据)比较危险。就像adam,rmsprop,有人说
: 由于它们用normalized的梯度,因此能放大出现次数少的feature的梯度,因此收敛快
: 。这就是典型的误解。这些方法恰恰对sparse的feature表现很差,因此才有各种
: sparse,lazy update的version。很多regret analysis要求梯度是unimodal分布,因
: 此所有的feature都要频繁出现,这样各个gradient才能接近高斯分布。

avatar
l*m
74
老师傅调参基本不是grid search, 类似imitation learning, 还是很快的.
在做seq2seq, 现在adam的标配是gradient clip and annealing learning rate。炼金
炼金

【在 l******x 的大作中提到】
: 把beta1和beta2拿来当步长搜是在蛮干。Adam有四个参数,eps和步长比较重要。你要
: 是四个参数都搜一遍,一个搜10个点,搜一次4个小时,如果你只有一个gpu,你需要
: 10000*4/24/30/12=4.6年才能解决一个小问题!最终大概搜到一个和SGD类似的解(
: beta很小,eps和步长很大),但这能有什么意义啊?本质上还是adam的收敛条件太苛
: 刻(对于典型的beta值)。

avatar
g*t
75
annealing这词是模拟退火来的。调参数很像实验物理。
以前还有模拟淬火。我记得就是把温度一下打到底。


: 老师傅调参基本不是grid search, 类似imitation learning, 还是很快
的.

: 在做seq2seq, 现在adam的标配是gradient clip and annealing
learning rate
。炼金

: 炼金



【在 l*******m 的大作中提到】
: 老师傅调参基本不是grid search, 类似imitation learning, 还是很快的.
: 在做seq2seq, 现在adam的标配是gradient clip and annealing learning rate。炼金
: 炼金

avatar
l*x
76
由简到繁,最后我们还是希望由繁到简。
SGD最raw,也是适用性最广的。
Momentum也不错,但只能对strongly convex的函数有加速作用。我的经验是对
Feedforward的网络好用,对RNN一般没用或有害。
RMSProp也很不错,damping factor调好了会收敛很快,但最后收敛的结果有时会比SGD
差。
Momentum和RMSProp都是Hinton很早就提出的,他的ppt
http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
page 30里明确的提到momentum + RMSProp(也就是Adam)没有进一步的gain,他那时
大概很难料到今天adam倒成了最popular的方法吧。
avatar
g*t
77
一个凸函数。如果梯度的李普西斯常数上限K,
N次迭代之后,和最优解的距离为:(K+小余项)/(N+小余项)
如果有momentum,那么N可以变成N^2.
这个结果不可提高。也就是说总能找到一个凸问题,满足你所使用的梯度,momentum的
值,但是收敛速度不超过K/N^2。
任何一个神经网肯定是要cover x'Ax+bx这样的基础问题的。
那么如果不用牛顿法,收敛速度bound实际上是很明确的。
要提高速度,就不能用黑盒模型。就是说除了函数的点值,以及梯度的点值之外。
要把别的信息注入优化方案。不然那就只能是在凸优化的基础边界之内的提高。
简单的说,让调参师傅工作效率高的办法容易赢。

SGD

【在 l******x 的大作中提到】
: 由简到繁,最后我们还是希望由繁到简。
: SGD最raw,也是适用性最广的。
: Momentum也不错,但只能对strongly convex的函数有加速作用。我的经验是对
: Feedforward的网络好用,对RNN一般没用或有害。
: RMSProp也很不错,damping factor调好了会收敛很快,但最后收敛的结果有时会比SGD
: 差。
: Momentum和RMSProp都是Hinton很早就提出的,他的ppt
: http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
: page 30里明确的提到momentum + RMSProp(也就是Adam)没有进一步的gain,他那时
: 大概很难料到今天adam倒成了最popular的方法吧。

avatar
l*x
78
一旦进入attraction basin,momentum才最优(只用一阶导数)。但困难恰恰就在于先
要逃离很多saddle points才能进入attraction basin, momentum对saddle points无能
为力,RMSProp才是逃离saddle points的方法。Adam在训练的早期大概要往RMSProp的
方向调,快收敛时往momentum方向调。
avatar
l*x
79
即便是在attraction basin里,momentum也只能加速strongly convex的问题。当
eigenvalue spread太大时,momentum也没有什么意义,那个bound代价函数值的ball太
大了。
这一缸子东西搞下去水太深。
avatar
g*t
80
是的. 就算在收敛区域内,走的太慢也没用。5年收敛那受不了。


: 即便是在attraction basin里,momentum也只能加速strongly convex的问题。当

: eigenvalue spread太大时,momentum也没有什么意义,那个bound代价函数值的
ball太

: 大了。

: 这一缸子东西搞下去水太深。



【在 l******x 的大作中提到】
: 即便是在attraction basin里,momentum也只能加速strongly convex的问题。当
: eigenvalue spread太大时,momentum也没有什么意义,那个bound代价函数值的ball太
: 大了。
: 这一缸子东西搞下去水太深。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。