f*e
2 楼
假如说,我今年年底买了一个房子并且可以领取8000块的退税,那么明年报2009年的税
的时候,就可以直接从联邦税里减去8000块并得到一大笔退税。
现在问题来了,2011年报2010年的税的时候,这个退税变成了我2010年的收入,需要向
州里报税,这样一来,我的8000块的退税就被打了个折扣。
如果明年年初买,报2009年税的时候,不claim这个credit,而是每个月少交8000/12快
的联邦税,这样,也能把8000块给拿回来,不过并不体现为收入,这样2011年报2010年
的税的时候就不需要交州税了,不过会损失利息,鉴于现在存款利率远低于我的最高州
税税率,应该损失不大。
不知道我这么考虑对不对,有没有什么没有考虑到的地方?
的时候,就可以直接从联邦税里减去8000块并得到一大笔退税。
现在问题来了,2011年报2010年的税的时候,这个退税变成了我2010年的收入,需要向
州里报税,这样一来,我的8000块的退税就被打了个折扣。
如果明年年初买,报2009年税的时候,不claim这个credit,而是每个月少交8000/12快
的联邦税,这样,也能把8000块给拿回来,不过并不体现为收入,这样2011年报2010年
的税的时候就不需要交州税了,不过会损失利息,鉴于现在存款利率远低于我的最高州
税税率,应该损失不大。
不知道我这么考虑对不对,有没有什么没有考虑到的地方?
w*g
3 楼
不知道版上的朋友有没有注意过。
比较典型的:
https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
https://www.groundai.com/project/improving-generalization-performance-by-
switching-from-adam-to-sgd/
我这两天在纠结这个cifar-10,发现也有这个现象。
就是50个epoch以后感觉山重水复疑无路了,错误率长时间在一个范围震动。
然后到150个epoch左右神经网络突然开窍,达到最优的状态。
随便在网上搜搜,很多图里都有这个现象。
比较典型的:
https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
https://www.groundai.com/project/improving-generalization-performance-by-
switching-from-adam-to-sgd/
我这两天在纠结这个cifar-10,发现也有这个现象。
就是50个epoch以后感觉山重水复疑无路了,错误率长时间在一个范围震动。
然后到150个epoch左右神经网络突然开窍,达到最优的状态。
随便在网上搜搜,很多图里都有这个现象。
w*s
4 楼
tax credit
算income吗?
【在 f*******e 的大作中提到】
: 假如说,我今年年底买了一个房子并且可以领取8000块的退税,那么明年报2009年的税
: 的时候,就可以直接从联邦税里减去8000块并得到一大笔退税。
: 现在问题来了,2011年报2010年的税的时候,这个退税变成了我2010年的收入,需要向
: 州里报税,这样一来,我的8000块的退税就被打了个折扣。
: 如果明年年初买,报2009年税的时候,不claim这个credit,而是每个月少交8000/12快
: 的联邦税,这样,也能把8000块给拿回来,不过并不体现为收入,这样2011年报2010年
: 的税的时候就不需要交州税了,不过会损失利息,鉴于现在存款利率远低于我的最高州
: 税税率,应该损失不大。
: 不知道我这么考虑对不对,有没有什么没有考虑到的地方?
算income吗?
【在 f*******e 的大作中提到】
: 假如说,我今年年底买了一个房子并且可以领取8000块的退税,那么明年报2009年的税
: 的时候,就可以直接从联邦税里减去8000块并得到一大笔退税。
: 现在问题来了,2011年报2010年的税的时候,这个退税变成了我2010年的收入,需要向
: 州里报税,这样一来,我的8000块的退税就被打了个折扣。
: 如果明年年初买,报2009年税的时候,不claim这个credit,而是每个月少交8000/12快
: 的联邦税,这样,也能把8000块给拿回来,不过并不体现为收入,这样2011年报2010年
: 的税的时候就不需要交州税了,不过会损失利息,鉴于现在存款利率远低于我的最高州
: 税税率,应该损失不大。
: 不知道我这么考虑对不对,有没有什么没有考虑到的地方?
w*r
5 楼
我觉得我能理解这个现象,我猜如果你不shuffle,应该不会有这个现象
另外,随着batch size的增大,这种现象也会减小
另外,随着batch size的增大,这种现象也会减小
x*i
6 楼
神经网络有没有个大约general的共识,比如batch size越大越好或者某个值,epoch越
多越好?filter越多越好?
还是这些参数必须根据具体model来调整
:我觉得我能理解这个现象,我猜如果你不shuffle,应该不会有这个现象
:
多越好?filter越多越好?
还是这些参数必须根据具体model来调整
:我觉得我能理解这个现象,我猜如果你不shuffle,应该不会有这个现象
:
v*e
7 楼
是不是跳进了某个更优解的流域里。
x*u
8 楼
你干的什么?
一般来说单纯的图像分类不会出现这么复杂的曲线吧
【在 w***g 的大作中提到】
: 不知道版上的朋友有没有注意过。
: 比较典型的:
: https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
: https://www.groundai.com/project/improving-generalization-performance-by-
: switching-from-adam-to-sgd/
: 我这两天在纠结这个cifar-10,发现也有这个现象。
: 就是50个epoch以后感觉山重水复疑无路了,错误率长时间在一个范围震动。
: 然后到150个epoch左右神经网络突然开窍,达到最优的状态。
: 随便在网上搜搜,很多图里都有这个现象。
一般来说单纯的图像分类不会出现这么复杂的曲线吧
【在 w***g 的大作中提到】
: 不知道版上的朋友有没有注意过。
: 比较典型的:
: https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
: https://www.groundai.com/project/improving-generalization-performance-by-
: switching-from-adam-to-sgd/
: 我这两天在纠结这个cifar-10,发现也有这个现象。
: 就是50个epoch以后感觉山重水复疑无路了,错误率长时间在一个范围震动。
: 然后到150个epoch左右神经网络突然开窍,达到最优的状态。
: 随便在网上搜搜,很多图里都有这个现象。
g*t
10 楼
最接近的解释就是chaos 动力系统吧。
不管什么算法,都是x(k 1) = f(x(k),p)这样的迭代。
一个图上有好几个吸引子。
有的吸引子有近周期解,会让你振荡很长时间。
但它不是真正的周期解。所以最后后走到另一个吸引子
的近周期解。
对相对简单的系统。
我会画不同参数取值下,不同类型震荡的分类图。
但据我所知,近周期解,周期解,混沌解具体的边界
是没有统一的办法计算和预测的。
最简单的一个例子就是对三体问题做数值仿真。
三体的质量和初始值不同就能看到你描述的这种
长期震荡,然后换一个值长期震荡的情况。
不管什么算法,都是x(k 1) = f(x(k),p)这样的迭代。
一个图上有好几个吸引子。
有的吸引子有近周期解,会让你振荡很长时间。
但它不是真正的周期解。所以最后后走到另一个吸引子
的近周期解。
对相对简单的系统。
我会画不同参数取值下,不同类型震荡的分类图。
但据我所知,近周期解,周期解,混沌解具体的边界
是没有统一的办法计算和预测的。
最简单的一个例子就是对三体问题做数值仿真。
三体的质量和初始值不同就能看到你描述的这种
长期震荡,然后换一个值长期震荡的情况。
g*h
11 楼
从控制论的角度看,在前一阶段,计算出现了病态。本身神经网络就是非线性函数,数
值不稳定,某个小的扰动使得整个系统跑到另一个状态。
值不稳定,某个小的扰动使得整个系统跑到另一个状态。
c*v
14 楼
哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。
交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物,
手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的
知识。
前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。
怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
【在 g*******h 的大作中提到】
:
: 非线性和数值不稳定是两个概念, 但非线性系统优化本身就可能不稳定. 前些年作神经
: 网络的人在学校里都是骗子的代名词,这两年突然走了狗屎运,变得高大上了,但神经
: 网络本身还是一坨狗屎。
我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。
交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物,
手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的
知识。
前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。
怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
【在 g*******h 的大作中提到】
:
: 非线性和数值不稳定是两个概念, 但非线性系统优化本身就可能不稳定. 前些年作神经
: 网络的人在学校里都是骗子的代名词,这两年突然走了狗屎运,变得高大上了,但神经
: 网络本身还是一坨狗屎。
g*h
15 楼
我没有说神经网络没用,只是现在没人知道它为什么有用,只是猜猜,试试,然后给个
拓铺网络,这就是一篇文章了。神经元本身就是个非线性函数,神经网络可以逼近任何
非线性系统,当然可以建模。但我不知道它什么时候进入饱和状态,什么时候不可激励
,一个黑箱而已。这和中医没什么区别。
【在 c*******v 的大作中提到】
: 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
: 我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。
: 交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物,
: 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的
: 知识。
: 前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。
: 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
j*2
17 楼
你确定不是因为learning rate调小了?很多paper里面到了一定阶段都会调整learning
rate从而达到进一步收敛的目的。像著名的resnet paper里就提到,“The learning
rate starts from 0.1 and is divided by 10 when the error plateaus”。
rate从而达到进一步收敛的目的。像著名的resnet paper里就提到,“The learning
rate starts from 0.1 and is divided by 10 when the error plateaus”。
j*2
18 楼
你的第二个链接里也说了 reducing the learning rate by 10 after 150 epochs
L*8
21 楼
http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
batch size 越大越好
【在 x**********i 的大作中提到】
: 神经网络有没有个大约general的共识,比如batch size越大越好或者某个值,epoch越
: 多越好?filter越多越好?
: 还是这些参数必须根据具体model来调整
:
: :我觉得我能理解这个现象,我猜如果你不shuffle,应该不会有这个现象
: :
batch size 越大越好
【在 x**********i 的大作中提到】
: 神经网络有没有个大约general的共识,比如batch size越大越好或者某个值,epoch越
: 多越好?filter越多越好?
: 还是这些参数必须根据具体model来调整
:
: :我觉得我能理解这个现象,我猜如果你不shuffle,应该不会有这个现象
: :
f*2
22 楼
燃料电池现在应用如何?
: 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
: 我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。
: 交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物,
: 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的
: 知识。
: 前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。
: 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
【在 c*******v 的大作中提到】
: 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
: 我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。
: 交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物,
: 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的
: 知识。
: 前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。
: 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
: 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
: 我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。
: 交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物,
: 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的
: 知识。
: 前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。
: 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
【在 c*******v 的大作中提到】
: 哎。年轻人还是谨慎言行的好。就我自己亲身经历的项目之一为例。
: 我当初参与建设中国高校第一套燃料电池系统,负责神经网络建模和控制系统。
: 交大副校长凌晨一点接到电话,来视察看我们发电成功。我作为吉祥物,
: 手里拿着小电扇给他们拍照。后来去双钱轮胎厂做物料供应算法,也用了类似的
: 知识。
: 前向网就是两个不同的算子,一个线性,一个非线性的多层叠代。
: 怎么可能没有用处。连多项式迭代这种一个算子的跌代到处都在用。
x*i
23 楼
请问下用batch和sgd有区别吗?还是两者同时用效果最好?我现在是如果用batch就不
用sgd,反之亦然。
:据说老司机的话用手动档最后收敛的好。最近有一篇adam
:训练一阵子后自动切SGD的文章。
用sgd,反之亦然。
:据说老司机的话用手动档最后收敛的好。最近有一篇adam
:训练一阵子后自动切SGD的文章。
x*i
24 楼
谢谢你的文章,很有用
那如果这样的话,就不用batch就行了啊,用sgd来减少计算量。
【在 L****8 的大作中提到】
: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好
那如果这样的话,就不用batch就行了啊,用sgd来减少计算量。
【在 L****8 的大作中提到】
: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好
x*u
25 楼
没那么绝对吧
大的batch_size代表了下大棋,小的batch_size代表了工匠精神
【在 L****8 的大作中提到】
: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好
大的batch_size代表了下大棋,小的batch_size代表了工匠精神
【在 L****8 的大作中提到】
: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好
s*V
27 楼
直观理解不难,cost fuction进入一个平坦的盆地,好比一个水池,只有一个很小的出
水孔到下一级,要在水池底部随机游走一段时间才能找到出水孔。
【在 w***g 的大作中提到】
: 不知道版上的朋友有没有注意过。
: 比较典型的:
: https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
: https://www.groundai.com/project/improving-generalization-performance-by-
: switching-from-adam-to-sgd/
: 我这两天在纠结这个cifar-10,发现也有这个现象。
: 就是50个epoch以后感觉山重水复疑无路了,错误率长时间在一个范围震动。
: 然后到150个epoch左右神经网络突然开窍,达到最优的状态。
: 随便在网上搜搜,很多图里都有这个现象。
水孔到下一级,要在水池底部随机游走一段时间才能找到出水孔。
【在 w***g 的大作中提到】
: 不知道版上的朋友有没有注意过。
: 比较典型的:
: https://www.groundai.com/media/arxiv_projects/28303/Figures/hypothesis.svg
: https://www.groundai.com/project/improving-generalization-performance-by-
: switching-from-adam-to-sgd/
: 我这两天在纠结这个cifar-10,发现也有这个现象。
: 就是50个epoch以后感觉山重水复疑无路了,错误率长时间在一个范围震动。
: 然后到150个epoch左右神经网络突然开窍,达到最优的状态。
: 随便在网上搜搜,很多图里都有这个现象。
w*g
29 楼
多谢!
【在 L****8 的大作中提到】
: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好
【在 L****8 的大作中提到】
: http://presentations.cocodataset.org/COCO17-Detect-Megvii.pdf
: batch size 越大越好
相关阅读
[bssd]本版几位startup的都会成功的用gpu训练的时候cpu内存有要求么? Capsules 网络代码开源了用纸笔做图像标注有谁干过这件事?[bssd] Yann LeCun stepped downGolang 的一组问题,有人说一下看法吗?Python哪个library可以快速建个soap web service?为什么apache big data 项目多是Java?[bssd] EE的兄弟们听我一言vcell 这种类似的软件能和AI结合起来搞吧wei和好虫打的什么赌, 吧好虫搞自杀了?Re: Zillow Prize kaggle的比赛 求问转行不容易啊兄弟们Embedded Deep Learning有啥好的framework?程序語言有兩種。[bssd]A study of software去哪里找ICO的消息?讨论:教小孩学programming从哪里开始问一下,要个啥title比较好