w*f
2 楼
不知道为什么自从这次找工作以来我就特别不想上班了,每个月就挣那么一点钱,每
天还要早起,晚上回来都不知道什么时候了。我觉得一点都不值得。人家那些自己做生
意的,跟我们一样辛苦,但是人家挣得比我们多好几倍。所以我觉得现在上班真的一点
前途都没有,真心的还不如自己去干点事情呢。
唉,可是自己手里还没有钱,现在如果有人能投我一点钱我真的都想自己去干了。不
管怎么样我自己干肯定比上班好很多。还不用听别人指挥,想什么时候就什么时候上班
,挣的还多。
天还要早起,晚上回来都不知道什么时候了。我觉得一点都不值得。人家那些自己做生
意的,跟我们一样辛苦,但是人家挣得比我们多好几倍。所以我觉得现在上班真的一点
前途都没有,真心的还不如自己去干点事情呢。
唉,可是自己手里还没有钱,现在如果有人能投我一点钱我真的都想自己去干了。不
管怎么样我自己干肯定比上班好很多。还不用听别人指挥,想什么时候就什么时候上班
,挣的还多。
H*y
3 楼
你们懂的~~
我先抛砖引玉2个
我先抛砖引玉2个
g*n
4 楼
不一定是愿意为你照照片的人,也不一定是为你一掷千金的人,
但一定是"当着你的面放屁的人".
80, 90 后的人知道最后这点是谁说的嘛? ^_^
但一定是"当着你的面放屁的人".
80, 90 后的人知道最后这点是谁说的嘛? ^_^
l*o
5 楼
现在给艾迪吃raw, 有时还是会担心营养不够均衡,于是今天把狗粮的成分都拿来研究
了一下,找的都是large breed adult的成分(如果那个牌子有这种的话), 发现
Innova标的非常详细,各种微量元素都标了,其它有的标的多点,有的少点,很难比较
。鉴于一般买肉也不会标明那么多成分, 所以还是只能考虑几种最基础的, 而且由于
是和raw比较, protein%就不管了。换算到1kcal来看:
Innova Wellness Taste of the Wild
1 kcal 1 kcal 1kcal
Fat mg 36.31 32.74 48.40
Fiber mg 7.49 13.39 8.07
Calcium mg 2.30 3.57
Phosphorous mg
了一下,找的都是large breed adult的成分(如果那个牌子有这种的话), 发现
Innova标的非常详细,各种微量元素都标了,其它有的标的多点,有的少点,很难比较
。鉴于一般买肉也不会标明那么多成分, 所以还是只能考虑几种最基础的, 而且由于
是和raw比较, protein%就不管了。换算到1kcal来看:
Innova Wellness Taste of the Wild
1 kcal 1 kcal 1kcal
Fat mg 36.31 32.74 48.40
Fiber mg 7.49 13.39 8.07
Calcium mg 2.30 3.57
Phosphorous mg
l*x
6 楼
半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
,但又突然来一句“I've never heard of the natural gradient being defined
using a different metric than the Fisher metric”,让人大跌眼镜。
不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
,但又突然来一句“I've never heard of the natural gradient being defined
using a different metric than the Fisher metric”,让人大跌眼镜。
l*n
7 楼
多看paper然后使劲想idea
多参加conference听别人talk
多参加conference听别人talk
g*1
8 楼
不懂得珍惜的人,就是给你一座金山,你也不会快乐;不懂得宽容的人,再多的朋友也
会离开你;不懂得感恩的人,再聪明也难以成功;不懂得修行的人,念再多的经也不能
成佛;不懂得满足的人,再富有也难以幸福;不懂得慈悲的人,再精进也难以解脱。
会离开你;不懂得感恩的人,再聪明也难以成功;不懂得修行的人,念再多的经也不能
成佛;不懂得满足的人,再富有也难以幸福;不懂得慈悲的人,再精进也难以解脱。
i*n
9 楼
明明素3个。。。。
a*o
10 楼
综合来看那一种比较好呢?
【在 l*****o 的大作中提到】
: 现在给艾迪吃raw, 有时还是会担心营养不够均衡,于是今天把狗粮的成分都拿来研究
: 了一下,找的都是large breed adult的成分(如果那个牌子有这种的话), 发现
: Innova标的非常详细,各种微量元素都标了,其它有的标的多点,有的少点,很难比较
: 。鉴于一般买肉也不会标明那么多成分, 所以还是只能考虑几种最基础的, 而且由于
: 是和raw比较, protein%就不管了。换算到1kcal来看:
: Innova Wellness Taste of the Wild
: 1 kcal 1 kcal 1kcal
: Fat mg 36.31 32.74 48.40
: Fiber mg 7.49 13.39 8.07
: Calcium mg 2.30 3.57
【在 l*****o 的大作中提到】
: 现在给艾迪吃raw, 有时还是会担心营养不够均衡,于是今天把狗粮的成分都拿来研究
: 了一下,找的都是large breed adult的成分(如果那个牌子有这种的话), 发现
: Innova标的非常详细,各种微量元素都标了,其它有的标的多点,有的少点,很难比较
: 。鉴于一般买肉也不会标明那么多成分, 所以还是只能考虑几种最基础的, 而且由于
: 是和raw比较, protein%就不管了。换算到1kcal来看:
: Innova Wellness Taste of the Wild
: 1 kcal 1 kcal 1kcal
: Fat mg 36.31 32.74 48.40
: Fiber mg 7.49 13.39 8.07
: Calcium mg 2.30 3.57
l*x
11 楼
at the end还要再来一句The reviewer is absolutely certain that the evaluation
is correct and very familiar with the relevant literature!
is correct and very familiar with the relevant literature!
m*1
12 楼
追踪国际热点也很简单。举个例子:美国化学家从太平洋杉树皮提取出了抗
癌活性物质紫杉醇。你就可以看看树叶、树根、果实中是否也含紫杉醇。而且还
可以研究东北杉树皮、叶、果、根里面是否也含这样的物质。既然紫杉醇可以抗
癌,那么甲基、乙基、丙基、丁基紫杉醇,甲酰基、乙酰基、丙酰基、丁酰基紫
杉醇,甲酰胺基、乙酰胺基、丙酰胺基、丁酰胺基紫杉醇……等衍生物是否也抗
癌(有些还可以根据构效关系推测一下),它们之间的作用强弱、起效快慢、维
持时间长短、毒性大小有无差异,都可以成为“国家重点课题”。靠这个路数拿
到院士学位的还不在少数。若国家想宣传,还可以来一个“我国科学家首次发现
2-甲基 -3-乙酰基-4-丙酰胺基紫杉醇具有强大的抗癌活性”。
再举个生理病理药理生化(所谓三理一化,基础医学的重点课)研究领域的
例子。一旦有谁发现了一种体内活性物质,众人就像苍蝇见了血一般的扑上去,
把与之相关的内容做透做烂。比如某科学家发现NO可以扩张大鼠冠状动脉,于是
咱就可以做其他实验动物种属如兔、小鼠、豚鼠、犬的冠状动脉,这些动物不同
部位的血管,如脑血管、肾血管、肺血管、腹主动脉、静脉血管,不仅可以研究
正常血管,而且还可以复制N个病理模型,探讨疾病状态下NO对血管的影响。条
件好点的,还可以做NO舒张血管机制的探讨,从整体水平、器官水平、细胞水平、
分子水平来做研究。如对血管平滑肌细胞的影响、对各种与血管舒缩相关酶活性
的影响、有关基因的影响、信号转到通路的影响等。而且知道了这个路数,只要
有人发现了舒张血管的活性物质或者合成了新的舒张血管药物,都可以照此办理,
毫无思路可言,基本上是力气活,只要有“日,歇歇再日”的那种精神,发篇文
章真不是什么难事。
Reference:
TexasCowgirl (girl), 人至痞则无敌——国内学术现状的精彩自述, , 信区: Faculty
http://www.mitbbs.com/article_t/Faculty/31538087.html
癌活性物质紫杉醇。你就可以看看树叶、树根、果实中是否也含紫杉醇。而且还
可以研究东北杉树皮、叶、果、根里面是否也含这样的物质。既然紫杉醇可以抗
癌,那么甲基、乙基、丙基、丁基紫杉醇,甲酰基、乙酰基、丙酰基、丁酰基紫
杉醇,甲酰胺基、乙酰胺基、丙酰胺基、丁酰胺基紫杉醇……等衍生物是否也抗
癌(有些还可以根据构效关系推测一下),它们之间的作用强弱、起效快慢、维
持时间长短、毒性大小有无差异,都可以成为“国家重点课题”。靠这个路数拿
到院士学位的还不在少数。若国家想宣传,还可以来一个“我国科学家首次发现
2-甲基 -3-乙酰基-4-丙酰胺基紫杉醇具有强大的抗癌活性”。
再举个生理病理药理生化(所谓三理一化,基础医学的重点课)研究领域的
例子。一旦有谁发现了一种体内活性物质,众人就像苍蝇见了血一般的扑上去,
把与之相关的内容做透做烂。比如某科学家发现NO可以扩张大鼠冠状动脉,于是
咱就可以做其他实验动物种属如兔、小鼠、豚鼠、犬的冠状动脉,这些动物不同
部位的血管,如脑血管、肾血管、肺血管、腹主动脉、静脉血管,不仅可以研究
正常血管,而且还可以复制N个病理模型,探讨疾病状态下NO对血管的影响。条
件好点的,还可以做NO舒张血管机制的探讨,从整体水平、器官水平、细胞水平、
分子水平来做研究。如对血管平滑肌细胞的影响、对各种与血管舒缩相关酶活性
的影响、有关基因的影响、信号转到通路的影响等。而且知道了这个路数,只要
有人发现了舒张血管的活性物质或者合成了新的舒张血管药物,都可以照此办理,
毫无思路可言,基本上是力气活,只要有“日,歇歇再日”的那种精神,发篇文
章真不是什么难事。
Reference:
TexasCowgirl (girl), 人至痞则无敌——国内学术现状的精彩自述, , 信区: Faculty
http://www.mitbbs.com/article_t/Faculty/31538087.html
g*t
15 楼
我怀疑你迟早会没兴趣写文章。
机器学习,神经网络,软计算等等当年都是没人搭理的,even被叫做伪科学的东西。
现在流行了,不少人卡住位置的人就开始假装自己是“科学家”欺负人。非常令人不愉
快。
【在 l******x 的大作中提到】
: 半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
: 不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
: AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
: ,但又突然来一句“I've never heard of the natural gradient being defined
: using a different metric than the Fisher metric”,让人大跌眼镜。
机器学习,神经网络,软计算等等当年都是没人搭理的,even被叫做伪科学的东西。
现在流行了,不少人卡住位置的人就开始假装自己是“科学家”欺负人。非常令人不愉
快。
【在 l******x 的大作中提到】
: 半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
: 不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
: AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
: ,但又突然来一句“I've never heard of the natural gradient being defined
: using a different metric than the Fisher metric”,让人大跌眼镜。
g*t
18 楼
the link did not work?
【在 l******x 的大作中提到】
: 半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
: 不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
: AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
: ,但又突然来一句“I've never heard of the natural gradient being defined
: using a different metric than the Fisher metric”,让人大跌眼镜。
【在 l******x 的大作中提到】
: 半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
: 不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
: AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
: ,但又突然来一句“I've never heard of the natural gradient being defined
: using a different metric than the Fisher metric”,让人大跌眼镜。
d*c
20 楼
为啥Glucosamine和Chondroitin的研究结果不同?
看了好多预防和解决joint的保健品,貌似都加了Glucosamine和Chondroitin
Omega6貌似要慎重加,比例不对的话有副作用(对人的研究结论)。。
【在 l*****o 的大作中提到】
: 现在给艾迪吃raw, 有时还是会担心营养不够均衡,于是今天把狗粮的成分都拿来研究
: 了一下,找的都是large breed adult的成分(如果那个牌子有这种的话), 发现
: Innova标的非常详细,各种微量元素都标了,其它有的标的多点,有的少点,很难比较
: 。鉴于一般买肉也不会标明那么多成分, 所以还是只能考虑几种最基础的, 而且由于
: 是和raw比较, protein%就不管了。换算到1kcal来看:
: Innova Wellness Taste of the Wild
: 1 kcal 1 kcal 1kcal
: Fat mg 36.31 32.74 48.40
: Fiber mg 7.49 13.39 8.07
: Calcium mg 2.30 3.57
看了好多预防和解决joint的保健品,貌似都加了Glucosamine和Chondroitin
Omega6貌似要慎重加,比例不对的话有副作用(对人的研究结论)。。
【在 l*****o 的大作中提到】
: 现在给艾迪吃raw, 有时还是会担心营养不够均衡,于是今天把狗粮的成分都拿来研究
: 了一下,找的都是large breed adult的成分(如果那个牌子有这种的话), 发现
: Innova标的非常详细,各种微量元素都标了,其它有的标的多点,有的少点,很难比较
: 。鉴于一般买肉也不会标明那么多成分, 所以还是只能考虑几种最基础的, 而且由于
: 是和raw比较, protein%就不管了。换算到1kcal来看:
: Innova Wellness Taste of the Wild
: 1 kcal 1 kcal 1kcal
: Fat mg 36.31 32.74 48.40
: Fiber mg 7.49 13.39 8.07
: Calcium mg 2.30 3.57
l*x
21 楼
https://openreview.net/forum?id=Bye5SiAqKX
不work?ICLR2019, Learning Preconditioners on Lie Groups
看了些文章的comments,很多CS conf的评论很猛啊!
不work?ICLR2019, Learning Preconditioners on Lie Groups
看了些文章的comments,很多CS conf的评论很猛啊!
l*o
23 楼
wiki上的说法是:
Oral glucosamine is commonly used for the treatment of osteoarthritis. Since
glucosamine is a precursor for glycosaminoglycans, and glycosaminoglycans
are a major component of joint cartilage, supplemental glucosamine may help
to prevent cartilage degeneration and treat arthritis. Its use as a therapy
for osteoarthritis appears safe, but there is conflicting evidence as to its
effectiveness. A Cochrane 2005 meta-analysis of glucosamine for
osteoarthritis found that only "Rotta" prepar
【在 d****c 的大作中提到】
: 为啥Glucosamine和Chondroitin的研究结果不同?
: 看了好多预防和解决joint的保健品,貌似都加了Glucosamine和Chondroitin
: Omega6貌似要慎重加,比例不对的话有副作用(对人的研究结论)。。
Oral glucosamine is commonly used for the treatment of osteoarthritis. Since
glucosamine is a precursor for glycosaminoglycans, and glycosaminoglycans
are a major component of joint cartilage, supplemental glucosamine may help
to prevent cartilage degeneration and treat arthritis. Its use as a therapy
for osteoarthritis appears safe, but there is conflicting evidence as to its
effectiveness. A Cochrane 2005 meta-analysis of glucosamine for
osteoarthritis found that only "Rotta" prepar
【在 d****c 的大作中提到】
: 为啥Glucosamine和Chondroitin的研究结果不同?
: 看了好多预防和解决joint的保健品,貌似都加了Glucosamine和Chondroitin
: Omega6貌似要慎重加,比例不对的话有副作用(对人的研究结论)。。
d*c
26 楼
止痛可能不行,但我还是相信它有保健功能滴。。
Since
help
therapy
its
studies
【在 l*****o 的大作中提到】
: wiki上的说法是:
: Oral glucosamine is commonly used for the treatment of osteoarthritis. Since
: glucosamine is a precursor for glycosaminoglycans, and glycosaminoglycans
: are a major component of joint cartilage, supplemental glucosamine may help
: to prevent cartilage degeneration and treat arthritis. Its use as a therapy
: for osteoarthritis appears safe, but there is conflicting evidence as to its
: effectiveness. A Cochrane 2005 meta-analysis of glucosamine for
: osteoarthritis found that only "Rotta" prepar
Since
help
therapy
its
studies
【在 l*****o 的大作中提到】
: wiki上的说法是:
: Oral glucosamine is commonly used for the treatment of osteoarthritis. Since
: glucosamine is a precursor for glycosaminoglycans, and glycosaminoglycans
: are a major component of joint cartilage, supplemental glucosamine may help
: to prevent cartilage degeneration and treat arthritis. Its use as a therapy
: for osteoarthritis appears safe, but there is conflicting evidence as to its
: effectiveness. A Cochrane 2005 meta-analysis of glucosamine for
: osteoarthritis found that only "Rotta" prepar
l*m
27 楼
你的分数还不错, ICLR接受率不是太低。那个评审也不是太可气。
主要原因你的写作方式十分不CS,故事没有讲的很精彩,很多地方讨论欠缺。
【在 l******x 的大作中提到】
: 半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
: 不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
: AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
: ,但又突然来一句“I've never heard of the natural gradient being defined
: using a different metric than the Fisher metric”,让人大跌眼镜。
主要原因你的写作方式十分不CS,故事没有讲的很精彩,很多地方讨论欠缺。
【在 l******x 的大作中提到】
: 半年前在这里介绍过自己的一个优化方法,还是有些手痒就投到ICLR上,害怕那种半懂
: 不懂的reviewer,但就是撞到一个,https://openreview.net/forum?id=Bye5SiAqKX,
: AnonReviewer1。好像他了解些自然梯度(知道empirical Fisher通常不同于Fisher)
: ,但又突然来一句“I've never heard of the natural gradient being defined
: using a different metric than the Fisher metric”,让人大跌眼镜。
g*t
29 楼
话说回来。有一点我和其他两个reviewer看法类似。作者的文章和lie group似乎没有
关系。用作标题不太合适。但假如我是reviewer,我不会说这是个缺点。
: https://openreview.net/forum?id=Bye5SiAqKX
: 不work?ICLR2019, Learning Preconditioners on Lie Groups
: 看了些文章的comments,很多CS conf的评论很猛啊!
【在 l******x 的大作中提到】
: https://openreview.net/forum?id=Bye5SiAqKX
: 不work?ICLR2019, Learning Preconditioners on Lie Groups
: 看了些文章的comments,很多CS conf的评论很猛啊!
关系。用作标题不太合适。但假如我是reviewer,我不会说这是个缺点。
: https://openreview.net/forum?id=Bye5SiAqKX
: 不work?ICLR2019, Learning Preconditioners on Lie Groups
: 看了些文章的comments,很多CS conf的评论很猛啊!
【在 l******x 的大作中提到】
: https://openreview.net/forum?id=Bye5SiAqKX
: 不work?ICLR2019, Learning Preconditioners on Lie Groups
: 看了些文章的comments,很多CS conf的评论很猛啊!
l*m
31 楼
你太NICE了,呵呵。
【在 g****t 的大作中提到】
: 话说回来。有一点我和其他两个reviewer看法类似。作者的文章和lie group似乎没有
: 关系。用作标题不太合适。但假如我是reviewer,我不会说这是个缺点。
:
:
: https://openreview.net/forum?id=Bye5SiAqKX
:
: 不work?ICLR2019, Learning Preconditioners on Lie Groups
:
: 看了些文章的comments,很多CS conf的评论很猛啊!
:
【在 g****t 的大作中提到】
: 话说回来。有一点我和其他两个reviewer看法类似。作者的文章和lie group似乎没有
: 关系。用作标题不太合适。但假如我是reviewer,我不会说这是个缺点。
:
:
: https://openreview.net/forum?id=Bye5SiAqKX
:
: 不work?ICLR2019, Learning Preconditioners on Lie Groups
:
: 看了些文章的comments,很多CS conf的评论很猛啊!
:
j*n
32 楼
赞
vote for 第一张
vote for 第一张
a*s
34 楼
水瓶座
s*m
36 楼
贡献一下~~~ 各位水瓶月快乐!:)
l*x
37 楼
那个reviewer看似是个新手,喜欢用些比较绝对的词(very, really, never,...),大
部分comments比较空泛,不好反驳。少量comments比较具体,然后就露馅了,比较容易
反驳。比如谈谈自然梯度就发现他完全没有理解什么是自然梯度;谈谈Lie group也是
这样,最后建议我用certain classes of invertible matrices closed under
standard operations(这到底是李代数,李群还是什么东西?)来替代Lie group。烦
就烦那种不懂装懂的reviewer的假大空的comments。
部分comments比较空泛,不好反驳。少量comments比较具体,然后就露馅了,比较容易
反驳。比如谈谈自然梯度就发现他完全没有理解什么是自然梯度;谈谈Lie group也是
这样,最后建议我用certain classes of invertible matrices closed under
standard operations(这到底是李代数,李群还是什么东西?)来替代Lie group。烦
就烦那种不懂装懂的reviewer的假大空的comments。
c*v
39 楼
老手直接就说你没有novelty,就完事了。
【在 l******x 的大作中提到】
: 那个reviewer看似是个新手,喜欢用些比较绝对的词(very, really, never,...),大
: 部分comments比较空泛,不好反驳。少量comments比较具体,然后就露馅了,比较容易
: 反驳。比如谈谈自然梯度就发现他完全没有理解什么是自然梯度;谈谈Lie group也是
: 这样,最后建议我用certain classes of invertible matrices closed under
: standard operations(这到底是李代数,李群还是什么东西?)来替代Lie group。烦
: 就烦那种不懂装懂的reviewer的假大空的comments。
【在 l******x 的大作中提到】
: 那个reviewer看似是个新手,喜欢用些比较绝对的词(very, really, never,...),大
: 部分comments比较空泛,不好反驳。少量comments比较具体,然后就露馅了,比较容易
: 反驳。比如谈谈自然梯度就发现他完全没有理解什么是自然梯度;谈谈Lie group也是
: 这样,最后建议我用certain classes of invertible matrices closed under
: standard operations(这到底是李代数,李群还是什么东西?)来替代Lie group。烦
: 就烦那种不懂装懂的reviewer的假大空的comments。
h*c
47 楼
诈骗不算伪科学吧,法学院的干活
https://en.wikipedia.org/wiki/Racketeer_Influenced_and_Corrupt_Organizations
_Act
https://en.wikipedia.org/wiki/Racketeer_Influenced_and_Corrupt_Organizations
_Act
l*x
51 楼
跑了几天,momentum和adam这些方法对优化word embedding matrix这种大矩阵稀疏梯
度的问题还是比最简单的SGD差一大截啊,sparse adam好一点,但和SGD还是差一截。
对于很多问题,SGD或SGD+momentum就够了。
度的问题还是比最简单的SGD差一大截啊,sparse adam好一点,但和SGD还是差一截。
对于很多问题,SGD或SGD+momentum就够了。
l*x
55 楼
不像step的问题,step都search过,也annealing step了。
大概是Adam的收敛条件太苛刻,要求最后梯度是unimodal分布,对word这种很稀疏的
feature,谈其梯度是否是unimodal分布没什么意义。
Sparse Adam又引入新问题,对很少出现的word,smoothed后的embedding vector的梯
度会seriously out of date。
大概是Adam的收敛条件太苛刻,要求最后梯度是unimodal分布,对word这种很稀疏的
feature,谈其梯度是否是unimodal分布没什么意义。
Sparse Adam又引入新问题,对很少出现的word,smoothed后的embedding vector的梯
度会seriously out of date。
g*t
57 楼
我觉得不管什么问题都可以用步长来解释。如果不是步长的大小问题,那就是步长的维
度问题。
Adams的步长beta1,beta2 对整个梯度g都是一个数。
实际上应该是对梯度的不同元素乘以不同的步长。不然假如
g里面的元素的收敛步长的region 没有交集,那就调不出来合适的步长。
这些问题都和LMS滤波器类似。Adams 类似于所谓的normalized LMS之类的东西,收敛
判据也类似。
发明LMS那位宗师明明做的是ANN SGD,因为是ANN低谷。
改了个名字摇身一变成了数字滤波器第一人。
还有一个办法。找个二次型问题,精确解用牛顿法一步就可以求出来的。很多时候其他
的近似办法无法找到合适的步长。所以精确的二次型问题可以看出梯度法或者简单的自
适应梯度法例如adams的不足。
以上看法正确与否,可以通过把beta1 变成一个向量,然后让梯度分量大的乘以小的步
长,小的乘以大的步长来观察是否有改善。
: 不像step的问题,step都search过,也annealing step了。
: 大概是Adam的收敛条件太苛刻,要求最后梯度是unimodal分布,对word这
种很稀
疏的
: feature,谈其梯度是否是unimodal分布没什么意义。
: Sparse Adam又引入新问题,对很少出现的word,smoothed后的embedding
vector的梯
: 度会seriously out of date。
【在 l******x 的大作中提到】
: 不像step的问题,step都search过,也annealing step了。
: 大概是Adam的收敛条件太苛刻,要求最后梯度是unimodal分布,对word这种很稀疏的
: feature,谈其梯度是否是unimodal分布没什么意义。
: Sparse Adam又引入新问题,对很少出现的word,smoothed后的embedding vector的梯
: 度会seriously out of date。
度问题。
Adams的步长beta1,beta2 对整个梯度g都是一个数。
实际上应该是对梯度的不同元素乘以不同的步长。不然假如
g里面的元素的收敛步长的region 没有交集,那就调不出来合适的步长。
这些问题都和LMS滤波器类似。Adams 类似于所谓的normalized LMS之类的东西,收敛
判据也类似。
发明LMS那位宗师明明做的是ANN SGD,因为是ANN低谷。
改了个名字摇身一变成了数字滤波器第一人。
还有一个办法。找个二次型问题,精确解用牛顿法一步就可以求出来的。很多时候其他
的近似办法无法找到合适的步长。所以精确的二次型问题可以看出梯度法或者简单的自
适应梯度法例如adams的不足。
以上看法正确与否,可以通过把beta1 变成一个向量,然后让梯度分量大的乘以小的步
长,小的乘以大的步长来观察是否有改善。
: 不像step的问题,step都search过,也annealing step了。
: 大概是Adam的收敛条件太苛刻,要求最后梯度是unimodal分布,对word这
种很稀
疏的
: feature,谈其梯度是否是unimodal分布没什么意义。
: Sparse Adam又引入新问题,对很少出现的word,smoothed后的embedding
vector的梯
: 度会seriously out of date。
【在 l******x 的大作中提到】
: 不像step的问题,step都search过,也annealing step了。
: 大概是Adam的收敛条件太苛刻,要求最后梯度是unimodal分布,对word这种很稀疏的
: feature,谈其梯度是否是unimodal分布没什么意义。
: Sparse Adam又引入新问题,对很少出现的word,smoothed后的embedding vector的梯
: 度会seriously out of date。
L*8
59 楼
"实际上应该是对梯度的不同元素乘以不同的步长"
这还是原来梯度方向么?
【在 g****t 的大作中提到】
: 我觉得不管什么问题都可以用步长来解释。如果不是步长的大小问题,那就是步长的维
: 度问题。
: Adams的步长beta1,beta2 对整个梯度g都是一个数。
: 实际上应该是对梯度的不同元素乘以不同的步长。不然假如
: g里面的元素的收敛步长的region 没有交集,那就调不出来合适的步长。
: 这些问题都和LMS滤波器类似。Adams 类似于所谓的normalized LMS之类的东西,收敛
: 判据也类似。
: 发明LMS那位宗师明明做的是ANN SGD,因为是ANN低谷。
: 改了个名字摇身一变成了数字滤波器第一人。
: 还有一个办法。找个二次型问题,精确解用牛顿法一步就可以求出来的。很多时候其他
这还是原来梯度方向么?
【在 g****t 的大作中提到】
: 我觉得不管什么问题都可以用步长来解释。如果不是步长的大小问题,那就是步长的维
: 度问题。
: Adams的步长beta1,beta2 对整个梯度g都是一个数。
: 实际上应该是对梯度的不同元素乘以不同的步长。不然假如
: g里面的元素的收敛步长的region 没有交集,那就调不出来合适的步长。
: 这些问题都和LMS滤波器类似。Adams 类似于所谓的normalized LMS之类的东西,收敛
: 判据也类似。
: 发明LMS那位宗师明明做的是ANN SGD,因为是ANN低谷。
: 改了个名字摇身一变成了数字滤波器第一人。
: 还有一个办法。找个二次型问题,精确解用牛顿法一步就可以求出来的。很多时候其他
l*x
63 楼
把beta1和beta2拿来当步长搜是在蛮干。Adam有四个参数,eps和步长比较重要。你要
是四个参数都搜一遍,一个搜10个点,搜一次4个小时,如果你只有一个gpu,你需要
10000*4/24/30/12=4.6年才能解决一个小问题!最终大概搜到一个和SGD类似的解(
beta很小,eps和步长很大),但这能有什么意义啊?本质上还是adam的收敛条件太苛
刻(对于典型的beta值)。
是四个参数都搜一遍,一个搜10个点,搜一次4个小时,如果你只有一个gpu,你需要
10000*4/24/30/12=4.6年才能解决一个小问题!最终大概搜到一个和SGD类似的解(
beta很小,eps和步长很大),但这能有什么意义啊?本质上还是adam的收敛条件太苛
刻(对于典型的beta值)。
l*x
67 楼
adam简单直观,还可能由于一些偶然的因素,毕竟大部分人不会追究算法的细节。
用的多抱怨也会多。比如很多人抱怨adam的generalization性能差;常常不收敛(比如
https://openreview.net/forum?id=ryQu7f-RZ),因此adam上又弄出了一堆变种,越
来越复杂。
用的多抱怨也会多。比如很多人抱怨adam的generalization性能差;常常不收敛(比如
https://openreview.net/forum?id=ryQu7f-RZ),因此adam上又弄出了一堆变种,越
来越复杂。
l*x
68 楼
其实加上一个momentum就会让在nonconvex和有梯度噪声下的分析大大复杂化。即便用
足够小的步长,momentum一般也不会单调收敛(所谓heavy ball method)。
Adam走的更远,其收敛依赖于更多条件。一般使用者很少了解这些细节。
足够小的步长,momentum一般也不会单调收敛(所谓heavy ball method)。
Adam走的更远,其收敛依赖于更多条件。一般使用者很少了解这些细节。
g*t
69 楼
我的意思是。Adams如果出问题,
最大的可能是因为移动平均那一步,给的时间常数太少。
对梯度的每个element求移动平均。这个有意义。但是
都按照同一个时间常数(Beta1)求移动平均,这点我认为没有必然的根据。
一个函数对参数的偏导数有3个,为啥这三个用同一个时间常数来滤波?这没有什么道
理。除非这三个运动的mode 非常接近而且不耦合。
: 把beta1和beta2拿来当步长搜是在蛮干。Adam有四个参数,eps和步长比
较重要
。你要
: 是四个参数都搜一遍,一个搜10个点,搜一次4个小时,如果你只有一个
gpu,你
需要
: 10000*4/24/30/12=4.6年才能解决一个小问题!最终大概搜到一个和SGD
类似的
解(
: beta很小,eps和步长很大),但这能有什么意义啊?本质上还是adam的
收敛条
件太苛
: 刻(对于典型的beta值)。
【在 l******x 的大作中提到】
: 其实加上一个momentum就会让在nonconvex和有梯度噪声下的分析大大复杂化。即便用
: 足够小的步长,momentum一般也不会单调收敛(所谓heavy ball method)。
: Adam走的更远,其收敛依赖于更多条件。一般使用者很少了解这些细节。
最大的可能是因为移动平均那一步,给的时间常数太少。
对梯度的每个element求移动平均。这个有意义。但是
都按照同一个时间常数(Beta1)求移动平均,这点我认为没有必然的根据。
一个函数对参数的偏导数有3个,为啥这三个用同一个时间常数来滤波?这没有什么道
理。除非这三个运动的mode 非常接近而且不耦合。
: 把beta1和beta2拿来当步长搜是在蛮干。Adam有四个参数,eps和步长比
较重要
。你要
: 是四个参数都搜一遍,一个搜10个点,搜一次4个小时,如果你只有一个
gpu,你
需要
: 10000*4/24/30/12=4.6年才能解决一个小问题!最终大概搜到一个和SGD
类似的
解(
: beta很小,eps和步长很大),但这能有什么意义啊?本质上还是adam的
收敛条
件太苛
: 刻(对于典型的beta值)。
【在 l******x 的大作中提到】
: 其实加上一个momentum就会让在nonconvex和有梯度噪声下的分析大大复杂化。即便用
: 足够小的步长,momentum一般也不会单调收敛(所谓heavy ball method)。
: Adam走的更远,其收敛依赖于更多条件。一般使用者很少了解这些细节。
g*t
70 楼
Normalized LMS是类似的算法。已经广泛应用在各种数字滤波场合几十年了。主因之一
是假如只用beta 1那个部分,也就是SGD.
各分量的尺度和单位很可能无法对齐。所以那个beta 2的
部分有用并且速度快。
另外懂的人可以看出来物理意义。爱因斯坦维诺定律可以连接随机信号的时域和频域分
析。大致来说,beta 2那部分算是高通。
实际上来讲。Adams和其他的两参数对步长进行滤波的办法频域上可以是等价的。你不
一定要
用Adams的具体形式。只要把过去的梯度进行两参数带通滤波,效果应该是类似的。
: adam这个算法很多人用 为啥? 既然收敛条件苛刻
【在 L****8 的大作中提到】
: adam这个算法很多人用 为啥? 既然收敛条件苛刻
是假如只用beta 1那个部分,也就是SGD.
各分量的尺度和单位很可能无法对齐。所以那个beta 2的
部分有用并且速度快。
另外懂的人可以看出来物理意义。爱因斯坦维诺定律可以连接随机信号的时域和频域分
析。大致来说,beta 2那部分算是高通。
实际上来讲。Adams和其他的两参数对步长进行滤波的办法频域上可以是等价的。你不
一定要
用Adams的具体形式。只要把过去的梯度进行两参数带通滤波,效果应该是类似的。
: adam这个算法很多人用 为啥? 既然收敛条件苛刻
【在 L****8 的大作中提到】
: adam这个算法很多人用 为啥? 既然收敛条件苛刻
l*x
71 楼
NLMS那个input energy是Hessian的最大特征值的bound,因此step size是well
normalized。
Adam是从regret analysis得出的,不trial-and-error,你根本不知道合适的步长。
NLMS的分母那部分没有开根号;Adam的分母那部分开根号。这两个量纲都对不上。
normalized。
Adam是从regret analysis得出的,不trial-and-error,你根本不知道合适的步长。
NLMS的分母那部分没有开根号;Adam的分母那部分开根号。这两个量纲都对不上。
l*x
72 楼
我觉得有些似是而非的类比(没有数学依据)比较危险。就像adam,rmsprop,有人说
由于它们用normalized的梯度,因此能放大出现次数少的feature的梯度,因此收敛快
。这就是典型的误解。这些方法恰恰对sparse的feature表现很差,因此才有各种
sparse,lazy update的version。很多regret analysis要求梯度是unimodal分布,因
此所有的feature都要频繁出现,这样各个gradient才能接近高斯分布。
由于它们用normalized的梯度,因此能放大出现次数少的feature的梯度,因此收敛快
。这就是典型的误解。这些方法恰恰对sparse的feature表现很差,因此才有各种
sparse,lazy update的version。很多regret analysis要求梯度是unimodal分布,因
此所有的feature都要频繁出现,这样各个gradient才能接近高斯分布。
g*t
73 楼
各种AI都是似是而非的类比。导致什么人都可以出个启发式的馊主意。所以成了过街老
鼠。这是历史教训。
但是信息论,自控,滤波什么的文献里到处都是各种中学数学竞赛程度的不等式估计,
于是自己把自己作死了。我认为这是另一方面的历史教训。
对我个人而言。Einstein-马赫的办法我认为很好。理想实验可以比数学论证更快的帮
助思考。
例如一个概率不等式,未必要写不等式来证明。构造一个撒骰子的过程,然后写清楚观
察,
也是证明。没有数学依据不等于没有依据。
有了数学依据也不一定就是依据。任何一个数学符号都是纸上的,没有香味没有质量。
如何可以成为
有质量,温度的实体的依据?数学到最后总要碰到这层困难。我说的不是逻辑佯谬。我
年轻时候念过布尔巴基的书。训练过many years数学证明。
现在可以感受到这一层困难。
【在 l******x 的大作中提到】
: 我觉得有些似是而非的类比(没有数学依据)比较危险。就像adam,rmsprop,有人说
: 由于它们用normalized的梯度,因此能放大出现次数少的feature的梯度,因此收敛快
: 。这就是典型的误解。这些方法恰恰对sparse的feature表现很差,因此才有各种
: sparse,lazy update的version。很多regret analysis要求梯度是unimodal分布,因
: 此所有的feature都要频繁出现,这样各个gradient才能接近高斯分布。
鼠。这是历史教训。
但是信息论,自控,滤波什么的文献里到处都是各种中学数学竞赛程度的不等式估计,
于是自己把自己作死了。我认为这是另一方面的历史教训。
对我个人而言。Einstein-马赫的办法我认为很好。理想实验可以比数学论证更快的帮
助思考。
例如一个概率不等式,未必要写不等式来证明。构造一个撒骰子的过程,然后写清楚观
察,
也是证明。没有数学依据不等于没有依据。
有了数学依据也不一定就是依据。任何一个数学符号都是纸上的,没有香味没有质量。
如何可以成为
有质量,温度的实体的依据?数学到最后总要碰到这层困难。我说的不是逻辑佯谬。我
年轻时候念过布尔巴基的书。训练过many years数学证明。
现在可以感受到这一层困难。
【在 l******x 的大作中提到】
: 我觉得有些似是而非的类比(没有数学依据)比较危险。就像adam,rmsprop,有人说
: 由于它们用normalized的梯度,因此能放大出现次数少的feature的梯度,因此收敛快
: 。这就是典型的误解。这些方法恰恰对sparse的feature表现很差,因此才有各种
: sparse,lazy update的version。很多regret analysis要求梯度是unimodal分布,因
: 此所有的feature都要频繁出现,这样各个gradient才能接近高斯分布。
l*m
74 楼
老师傅调参基本不是grid search, 类似imitation learning, 还是很快的.
在做seq2seq, 现在adam的标配是gradient clip and annealing learning rate。炼金
炼金
【在 l******x 的大作中提到】
: 把beta1和beta2拿来当步长搜是在蛮干。Adam有四个参数,eps和步长比较重要。你要
: 是四个参数都搜一遍,一个搜10个点,搜一次4个小时,如果你只有一个gpu,你需要
: 10000*4/24/30/12=4.6年才能解决一个小问题!最终大概搜到一个和SGD类似的解(
: beta很小,eps和步长很大),但这能有什么意义啊?本质上还是adam的收敛条件太苛
: 刻(对于典型的beta值)。
在做seq2seq, 现在adam的标配是gradient clip and annealing learning rate。炼金
炼金
【在 l******x 的大作中提到】
: 把beta1和beta2拿来当步长搜是在蛮干。Adam有四个参数,eps和步长比较重要。你要
: 是四个参数都搜一遍,一个搜10个点,搜一次4个小时,如果你只有一个gpu,你需要
: 10000*4/24/30/12=4.6年才能解决一个小问题!最终大概搜到一个和SGD类似的解(
: beta很小,eps和步长很大),但这能有什么意义啊?本质上还是adam的收敛条件太苛
: 刻(对于典型的beta值)。
g*t
75 楼
annealing这词是模拟退火来的。调参数很像实验物理。
以前还有模拟淬火。我记得就是把温度一下打到底。
: 老师傅调参基本不是grid search, 类似imitation learning, 还是很快
的.
: 在做seq2seq, 现在adam的标配是gradient clip and annealing
learning rate
。炼金
: 炼金
【在 l*******m 的大作中提到】
: 老师傅调参基本不是grid search, 类似imitation learning, 还是很快的.
: 在做seq2seq, 现在adam的标配是gradient clip and annealing learning rate。炼金
: 炼金
以前还有模拟淬火。我记得就是把温度一下打到底。
: 老师傅调参基本不是grid search, 类似imitation learning, 还是很快
的.
: 在做seq2seq, 现在adam的标配是gradient clip and annealing
learning rate
。炼金
: 炼金
【在 l*******m 的大作中提到】
: 老师傅调参基本不是grid search, 类似imitation learning, 还是很快的.
: 在做seq2seq, 现在adam的标配是gradient clip and annealing learning rate。炼金
: 炼金
l*x
76 楼
由简到繁,最后我们还是希望由繁到简。
SGD最raw,也是适用性最广的。
Momentum也不错,但只能对strongly convex的函数有加速作用。我的经验是对
Feedforward的网络好用,对RNN一般没用或有害。
RMSProp也很不错,damping factor调好了会收敛很快,但最后收敛的结果有时会比SGD
差。
Momentum和RMSProp都是Hinton很早就提出的,他的ppt
http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
page 30里明确的提到momentum + RMSProp(也就是Adam)没有进一步的gain,他那时
大概很难料到今天adam倒成了最popular的方法吧。
SGD最raw,也是适用性最广的。
Momentum也不错,但只能对strongly convex的函数有加速作用。我的经验是对
Feedforward的网络好用,对RNN一般没用或有害。
RMSProp也很不错,damping factor调好了会收敛很快,但最后收敛的结果有时会比SGD
差。
Momentum和RMSProp都是Hinton很早就提出的,他的ppt
http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
page 30里明确的提到momentum + RMSProp(也就是Adam)没有进一步的gain,他那时
大概很难料到今天adam倒成了最popular的方法吧。
g*t
77 楼
一个凸函数。如果梯度的李普西斯常数上限K,
N次迭代之后,和最优解的距离为:(K+小余项)/(N+小余项)
如果有momentum,那么N可以变成N^2.
这个结果不可提高。也就是说总能找到一个凸问题,满足你所使用的梯度,momentum的
值,但是收敛速度不超过K/N^2。
任何一个神经网肯定是要cover x'Ax+bx这样的基础问题的。
那么如果不用牛顿法,收敛速度bound实际上是很明确的。
要提高速度,就不能用黑盒模型。就是说除了函数的点值,以及梯度的点值之外。
要把别的信息注入优化方案。不然那就只能是在凸优化的基础边界之内的提高。
简单的说,让调参师傅工作效率高的办法容易赢。
SGD
【在 l******x 的大作中提到】
: 由简到繁,最后我们还是希望由繁到简。
: SGD最raw,也是适用性最广的。
: Momentum也不错,但只能对strongly convex的函数有加速作用。我的经验是对
: Feedforward的网络好用,对RNN一般没用或有害。
: RMSProp也很不错,damping factor调好了会收敛很快,但最后收敛的结果有时会比SGD
: 差。
: Momentum和RMSProp都是Hinton很早就提出的,他的ppt
: http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
: page 30里明确的提到momentum + RMSProp(也就是Adam)没有进一步的gain,他那时
: 大概很难料到今天adam倒成了最popular的方法吧。
N次迭代之后,和最优解的距离为:(K+小余项)/(N+小余项)
如果有momentum,那么N可以变成N^2.
这个结果不可提高。也就是说总能找到一个凸问题,满足你所使用的梯度,momentum的
值,但是收敛速度不超过K/N^2。
任何一个神经网肯定是要cover x'Ax+bx这样的基础问题的。
那么如果不用牛顿法,收敛速度bound实际上是很明确的。
要提高速度,就不能用黑盒模型。就是说除了函数的点值,以及梯度的点值之外。
要把别的信息注入优化方案。不然那就只能是在凸优化的基础边界之内的提高。
简单的说,让调参师傅工作效率高的办法容易赢。
SGD
【在 l******x 的大作中提到】
: 由简到繁,最后我们还是希望由繁到简。
: SGD最raw,也是适用性最广的。
: Momentum也不错,但只能对strongly convex的函数有加速作用。我的经验是对
: Feedforward的网络好用,对RNN一般没用或有害。
: RMSProp也很不错,damping factor调好了会收敛很快,但最后收敛的结果有时会比SGD
: 差。
: Momentum和RMSProp都是Hinton很早就提出的,他的ppt
: http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
: page 30里明确的提到momentum + RMSProp(也就是Adam)没有进一步的gain,他那时
: 大概很难料到今天adam倒成了最popular的方法吧。
l*x
78 楼
一旦进入attraction basin,momentum才最优(只用一阶导数)。但困难恰恰就在于先
要逃离很多saddle points才能进入attraction basin, momentum对saddle points无能
为力,RMSProp才是逃离saddle points的方法。Adam在训练的早期大概要往RMSProp的
方向调,快收敛时往momentum方向调。
要逃离很多saddle points才能进入attraction basin, momentum对saddle points无能
为力,RMSProp才是逃离saddle points的方法。Adam在训练的早期大概要往RMSProp的
方向调,快收敛时往momentum方向调。
l*x
79 楼
即便是在attraction basin里,momentum也只能加速strongly convex的问题。当
eigenvalue spread太大时,momentum也没有什么意义,那个bound代价函数值的ball太
大了。
这一缸子东西搞下去水太深。
eigenvalue spread太大时,momentum也没有什么意义,那个bound代价函数值的ball太
大了。
这一缸子东西搞下去水太深。
g*t
80 楼
是的. 就算在收敛区域内,走的太慢也没用。5年收敛那受不了。
: 即便是在attraction basin里,momentum也只能加速strongly convex的问题。当
: eigenvalue spread太大时,momentum也没有什么意义,那个bound代价函数值的
ball太
: 大了。
: 这一缸子东西搞下去水太深。
【在 l******x 的大作中提到】
: 即便是在attraction basin里,momentum也只能加速strongly convex的问题。当
: eigenvalue spread太大时,momentum也没有什么意义,那个bound代价函数值的ball太
: 大了。
: 这一缸子东西搞下去水太深。
: 即便是在attraction basin里,momentum也只能加速strongly convex的问题。当
: eigenvalue spread太大时,momentum也没有什么意义,那个bound代价函数值的
ball太
: 大了。
: 这一缸子东西搞下去水太深。
【在 l******x 的大作中提到】
: 即便是在attraction basin里,momentum也只能加速strongly convex的问题。当
: eigenvalue spread太大时,momentum也没有什么意义,那个bound代价函数值的ball太
: 大了。
: 这一缸子东西搞下去水太深。
相关阅读
Amazon中国经理诚招senior sde / sde 2 (转载)侮辱一个ABC最有效的方法是说她 stupid (转载)cmake 求教“假如你用了我的工具效果不好,那肯定是你不会用” (转载)问个树遍历的线程化问题公司名气大的入门薪水低,但是高级职位薪水高 (转载)JetBrains要做C# IDE了?新华社通稿:围棋将迎来美丽的新世界atom现在非常好用啊alphaGo的胜利说明AI和码工一定崛起 (转载)深度学习真正有实用价值的应用国际化message的数据库存储Programmers think they are demigod in the center of univers (转载)求救网络大牛们,如何处理tcp短连接Re: Regex is fun 外链無用 (转载)JAVA equals()和hashCode()请教。pay for a small functionality求教怎么建一个AWS的real time scoring engine?Google DriveMany-to-Many 关系数据存储