神经网络的开窍现象 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

神经网络的开窍现象

神经网络的开窍现象# Programming - 葵花宝典

v*x2018-03-18 07:03

1 楼

谢谢

f*e2018-03-18 07:03

2 楼

假如说，我今年年底买了一个房子并且可以领取8000块的退税，那么明年报2009年的税
的时候，就可以直接从联邦税里减去8000块并得到一大笔退税。
现在问题来了，2011年报2010年的税的时候，这个退税变成了我2010年的收入，需要向
州里报税，这样一来，我的8000块的退税就被打了个折扣。
如果明年年初买，报2009年税的时候，不claim这个credit，而是每个月少交8000/12快
的联邦税，这样，也能把8000块给拿回来，不过并不体现为收入，这样2011年报2010年
的税的时候就不需要交州税了，不过会损失利息，鉴于现在存款利率远低于我的最高州
税税率，应该损失不大。
不知道我这么考虑对不对，有没有什么没有考虑到的地方？

w*g2018-03-18 07:03

3 楼

不知道版上的朋友有没有注意过。
比较典型的：
https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
https://www.groundai.com/project/improving-generalization-performance-by-
switching-from-adam-to-sgd/
我这两天在纠结这个cifar-10，发现也有这个现象。
就是50个epoch以后感觉山重水复疑无路了，错误率长时间在一个范围震动。
然后到150个epoch左右神经网络突然开窍，达到最优的状态。
随便在网上搜搜，很多图里都有这个现象。

w*s2018-03-18 07:03

4 楼

tax credit
算income吗？

【在 f*******e 的大作中提到】

: 假如说，我今年年底买了一个房子并且可以领取8000块的退税，那么明年报2009年的税
: 的时候，就可以直接从联邦税里减去8000块并得到一大笔退税。
: 现在问题来了，2011年报2010年的税的时候，这个退税变成了我2010年的收入，需要向
: 州里报税，这样一来，我的8000块的退税就被打了个折扣。
: 如果明年年初买，报2009年税的时候，不claim这个credit，而是每个月少交8000/12快
: 的联邦税，这样，也能把8000块给拿回来，不过并不体现为收入，这样2011年报2010年
: 的税的时候就不需要交州税了，不过会损失利息，鉴于现在存款利率远低于我的最高州
: 税税率，应该损失不大。
: 不知道我这么考虑对不对，有没有什么没有考虑到的地方？

w*r2018-03-18 07:03

5 楼

我觉得我能理解这个现象，我猜如果你不shuffle，应该不会有这个现象
另外，随着batch size的增大，这种现象也会减小

x*i2018-03-18 07:03

6 楼

神经网络有没有个大约general的共识，比如batch size越大越好或者某个值，epoch越
多越好？filter越多越好？
还是这些参数必须根据具体model来调整

：我觉得我能理解这个现象，我猜如果你不shuffle，应该不会有这个现象
：

v*e2018-03-18 07:03

7 楼

是不是跳进了某个更优解的流域里。

x*u2018-03-18 07:03

8 楼

你干的什么？
一般来说单纯的图像分类不会出现这么复杂的曲线吧

【在 w***g 的大作中提到】

: 不知道版上的朋友有没有注意过。
: 比较典型的：
: https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
: https://www.groundai.com/project/improving-generalization-performance-by-
: switching-from-adam-to-sgd/
: 我这两天在纠结这个cifar-10，发现也有这个现象。
: 就是50个epoch以后感觉山重水复疑无路了，错误率长时间在一个范围震动。
: 然后到150个epoch左右神经网络突然开窍，达到最优的状态。
: 随便在网上搜搜，很多图里都有这个现象。

x*u2018-03-18 07:03

9 楼

必须没有啊
不然就真是通用AI了
现在只能说imagenet等大数据集上训练出来的一般都不错，但要是真细扣特定领域优化
空间肯定很多

【在 x**********i 的大作中提到】

: 神经网络有没有个大约general的共识，比如batch size越大越好或者某个值，epoch越
: 多越好？filter越多越好？
: 还是这些参数必须根据具体model来调整
:
: ：我觉得我能理解这个现象，我猜如果你不shuffle，应该不会有这个现象
: ：

g*t2018-03-18 07:03

10 楼

最接近的解释就是chaos 动力系统吧。
不管什么算法，都是x(k 1) = f(x(k),p)这样的迭代。
一个图上有好几个吸引子。
有的吸引子有近周期解，会让你振荡很长时间。
但它不是真正的周期解。所以最后后走到另一个吸引子
的近周期解。
对相对简单的系统。
我会画不同参数取值下，不同类型震荡的分类图。
但据我所知，近周期解，周期解，混沌解具体的边界
是没有统一的办法计算和预测的。
最简单的一个例子就是对三体问题做数值仿真。
三体的质量和初始值不同就能看到你描述的这种
长期震荡，然后换一个值长期震荡的情况。

g*h2018-03-18 07:03

11 楼

从控制论的角度看，在前一阶段，计算出现了病态。本身神经网络就是非线性函数，数
值不稳定，某个小的扰动使得整个系统跑到另一个状态。

g*t2018-03-18 07:03

12 楼

非线性和数值不稳定是两个概念吧。矩阵乘法或者计算标准差这样的简单计算如果算法
不对都有可能数值不稳定。

: 从控制论的角度看，在前一阶段，计算出现了病态。本身神经网络就是非线性函
数，数

: 值不稳定，某个小的扰动使得整个系统跑到另一个状态。

【在 g*******h 的大作中提到】

: 从控制论的角度看，在前一阶段，计算出现了病态。本身神经网络就是非线性函数，数
: 值不稳定，某个小的扰动使得整个系统跑到另一个状态。

g*h2018-03-18 07:03

13 楼

非线性和数值不稳定是两个概念, 但非线性系统优化本身就可能不稳定. 前些年作神经
网络的人在学校里都是骗子的代名词，这两年突然走了狗屎运，变得高大上了，但神经
网络本身还是一坨狗屎。

【在 g****t 的大作中提到】

: 非线性和数值不稳定是两个概念吧。矩阵乘法或者计算标准差这样的简单计算如果算法
: 不对都有可能数值不稳定。
:
:
: 从控制论的角度看，在前一阶段，计算出现了病态。本身神经网络就是非线性函
: 数，数
:
: 值不稳定，某个小的扰动使得整个系统跑到另一个状态。
:

c*v2018-03-18 07:03

14 楼

哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
我当初参与建设中国高校第一套燃料电池系统，负责神经网络建模和控制系统。
交大副校长凌晨一点接到电话，来视察看我们发电成功。我作为吉祥物，
手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法，也用了类似的
知识。
前向网就是两个不同的算子，一个线性，一个非线性的多层叠代。
怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。

【在 g*******h 的大作中提到】

:
: 非线性和数值不稳定是两个概念, 但非线性系统优化本身就可能不稳定. 前些年作神经
: 网络的人在学校里都是骗子的代名词，这两年突然走了狗屎运，变得高大上了，但神经
: 网络本身还是一坨狗屎。

g*h2018-03-18 07:03

15 楼

我没有说神经网络没用，只是现在没人知道它为什么有用，只是猜猜，试试，然后给个
拓铺网络，这就是一篇文章了。神经元本身就是个非线性函数，神经网络可以逼近任何
非线性系统，当然可以建模。但我不知道它什么时候进入饱和状态，什么时候不可激励
，一个黑箱而已。这和中医没什么区别。

【在 c*******v 的大作中提到】

: 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
: 我当初参与建设中国高校第一套燃料电池系统，负责神经网络建模和控制系统。
: 交大副校长凌晨一点接到电话，来视察看我们发电成功。我作为吉祥物，
: 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法，也用了类似的
: 知识。
: 前向网就是两个不同的算子，一个线性，一个非线性的多层叠代。
: 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。

g*t2018-03-18 07:03

16 楼

三体不可预测。那么万有引力定理就是黑箱？

【在 g*******h 的大作中提到】

:
: 我没有说神经网络没用，只是现在没人知道它为什么有用，只是猜猜，试试，然后给个
: 拓铺网络，这就是一篇文章了。神经元本身就是个非线性函数，神经网络可以逼近任何
: 非线性系统，当然可以建模。但我不知道它什么时候进入饱和状态，什么时候不可激励
: ，一个黑箱而已。这和中医没什么区别。

j*22018-03-18 07:03

17 楼

你确定不是因为learning rate调小了？很多paper里面到了一定阶段都会调整learning
rate从而达到进一步收敛的目的。像著名的resnet paper里就提到，“The learning
rate starts from 0.1 and is divided by 10 when the error plateaus”。

j*22018-03-18 07:03

18 楼

你的第二个链接里也说了 reducing the learning rate by 10 after 150 epochs

x*u2018-03-18 07:03

19 楼

直接上可变学习率的优化器省心啊

learning
learning

【在 j*******2 的大作中提到】

: 你确定不是因为learning rate调小了？很多paper里面到了一定阶段都会调整learning
: rate从而达到进一步收敛的目的。像著名的resnet paper里就提到，“The learning
: rate starts from 0.1 and is divided by 10 when the error plateaus”。

w*g2018-03-18 07:03

20 楼

据说老司机的话用手动档最后收敛的好。最近有一篇adam
训练一阵子后自动切SGD的文章。

【在 x****u 的大作中提到】

: 直接上可变学习率的优化器省心啊
:
: learning
: learning

L*82018-03-18 07:03

21 楼

http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
batch size 越大越好

【在 x**********i 的大作中提到】

f*22018-03-18 07:03

22 楼

燃料电池现在应用如何？

: 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。

: 我当初参与建设中国高校第一套燃料电池系统，负责神经网络建模和控制系统。

: 交大副校长凌晨一点接到电话，来视察看我们发电成功。我作为吉祥物，

: 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法，也用了类似的

: 知识。

: 前向网就是两个不同的算子，一个线性，一个非线性的多层叠代。

: 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。

【在 c*******v 的大作中提到】

x*i2018-03-18 07:03

23 楼

请问下用batch和sgd有区别吗？还是两者同时用效果最好？我现在是如果用batch就不
用sgd，反之亦然。

：据说老司机的话用手动档最后收敛的好。最近有一篇adam
：训练一阵子后自动切SGD的文章。

x*i2018-03-18 07:03

24 楼

谢谢你的文章，很有用
那如果这样的话，就不用batch就行了啊，用sgd来减少计算量。

【在 L****8 的大作中提到】

: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好

x*u2018-03-18 07:03

25 楼

没那么绝对吧
大的batch_size代表了下大棋，小的batch_size代表了工匠精神

【在 L****8 的大作中提到】

: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好

L*82018-03-18 07:03