DNN OpenSource - 未名空间MITBBS历史存档

a*e2018-05-03 07:05

1 楼

http://www.tudou.com/programs/view/hHptVqSRFl0
留学生原创DV

w*r2018-05-03 07:05

2 楼

我目前试了好几个github不同的open source DNN，包括tensorflow/莫的老师/
research下面的code。。。现象如下：
1，拿他pre-train的model，跑我的dataset X，accuracy为a
2，基于pretrain的model，我在X上fine-tune，然后再在X上测，accuracy为b，b<3，我自己用公版training script在X上train from scratch，accuracy为c，c<第3步，可以说是我技不如人，但是train.py应该是没大问题
bother我的是第2步，别人的model在没见过我的dataset时的performance，比我让该
model在我的dataset加train几个epoch的结果还要好。。。
怎么解释？决定跟这个问题死磕了。。。

r*n2018-05-03 07:05

3 楼

kao,住在我原来apt的隔壁...

【在 a******e 的大作中提到】

: http://www.tudou.com/programs/view/hHptVqSRFl0
: 留学生原创DV

g*t2018-05-03 07:05

4 楼

Try more epoch to check the trends?
In theory, the information should be fully absorbed if you use the dataset X
infinity times.

【在 w*****r 的大作中提到】

: 我目前试了好几个github不同的open source DNN，包括tensorflow/莫的老师/
: research下面的code。。。现象如下：
: 1，拿他pre-train的model，跑我的dataset X，accuracy为a
: 2，基于pretrain的model，我在X上fine-tune，然后再在X上测，accuracy为b，b<: 3，我自己用公版training script在X上train from scratch，accuracy为c，c<: 第3步，可以说是我技不如人，但是train.py应该是没大问题
: bother我的是第2步，别人的model在没见过我的dataset时的performance，比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释？决定跟这个问题死磕了。。。

a*e2018-05-03 07:05

5 楼

really?

【在 r********n 的大作中提到】

: kao,住在我原来apt的隔壁...

w*g2018-05-03 07:05

6 楼

我四月份花了一整个星期研究为啥一个pytorch的resnet比
tf.slim的resnet在cifar10上收敛的快。train model水太深了。
2和3我估计是同一个问题。b和c比怎么样？正常的话我严重怀疑你分辨率太大了。

【在 w*****r 的大作中提到】

: 我目前试了好几个github不同的open source DNN，包括tensorflow/莫的老师/
: research下面的code。。。现象如下：
: 1，拿他pre-train的model，跑我的dataset X，accuracy为a
: 2，基于pretrain的model，我在X上fine-tune，然后再在X上测，accuracy为b，b<: 3，我自己用公版training script在X上train from scratch，accuracy为c，c<: 第3步，可以说是我技不如人，但是train.py应该是没大问题
: bother我的是第2步，别人的model在没见过我的dataset时的performance，比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释？决定跟这个问题死磕了。。。

r*n2018-05-03 07:05

7 楼

那个车站就在我原来apt门口
天天赶点坐bus上学...

【在 a******e 的大作中提到】

: really?

w*r2018-05-03 07:05

8 楼

如何从分辨率高推出 bb ~= a-3
c和b没可比性，公版model已经在imagenet上过了一遍了。不过可以确定的是，现在的
train.py能train出个大概，说明这个script没有大问题。

【在 w***g 的大作中提到】

: 我四月份花了一整个星期研究为啥一个pytorch的resnet比
: tf.slim的resnet在cifar10上收敛的快。train model水太深了。
: 2和3我估计是同一个问题。b和c比怎么样？正常的话: 我严重怀疑你分辨率太大了。

a*e2018-05-03 07:05

9 楼

前辈啊。。。受我一拜。。。。

【在 r********n 的大作中提到】

: 那个车站就在我原来apt门口
: 天天赶点坐bus上学...

h*c2018-05-03 07:05

10 楼

听你们描述炼丹过程，感觉就是瞎几把乱试啊

z*n2018-05-03 07:05

11 楼

拍得有点正
应该表现一下wsn的ws

【在 a******e 的大作中提到】

: http://www.tudou.com/programs/view/hHptVqSRFl0
: 留学生原创DV

x*u2018-05-03 07:05

12 楼

你做fine-tune的时候lr过大了吧

【在 w*****r 的大作中提到】

: 我目前试了好几个github不同的open source DNN，包括tensorflow/莫的老师/
: research下面的code。。。现象如下：
: 1，拿他pre-train的model，跑我的dataset X，accuracy为a
: 2，基于pretrain的model，我在X上fine-tune，然后再在X上测，accuracy为b，b<: 3，我自己用公版training script在X上train from scratch，accuracy为c，c<: 第3步，可以说是我技不如人，但是train.py应该是没大问题
: bother我的是第2步，别人的model在没见过我的dataset时的performance，比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释？决定跟这个问题死磕了。。。

x*u2018-05-03 07:05

13 楼

pytorch的模型都是改过的吧

【在 w***g 的大作中提到】

: 我四月份花了一整个星期研究为啥一个pytorch的resnet比
: tf.slim的resnet在cifar10上收敛的快。train model水太深了。
: 2和3我估计是同一个问题。b和c比怎么样？正常的话: 我严重怀疑你分辨率太大了。

w*g2018-05-03 07:05

14 楼

难道不是这样的？

：
：听你们描述炼丹过程，感觉就是瞎几把乱试啊

w*r2018-05-03 07:05

15 楼

0.0001, 不大吧。。。

【在 x****u 的大作中提到】

: 你做fine-tune的时候lr过大了吧

x*u2018-05-03 07:05

16 楼

我搞过的一个东西用只有1e-6才工作，万分之一立即爆掉

【在 w*****r 的大作中提到】

: 0.0001, 不大吧。。。

x*u2018-05-03 07:05

17 楼

那都是为了发paper，工业界只要能出东西就行，没必要花几个月把结果都交叉验证一遍

【在 h**c 的大作中提到】

: 听你们描述炼丹过程，感觉就是瞎几把乱试啊

w*g2018-05-03 07:05

18 楼

你用的是哪个轮子？我很想仔细看眼。因为各种坑特别多，在这行干我感觉
全靠见得多。

【在 w*****r 的大作中提到】

: 我目前试了好几个github不同的open source DNN，包括tensorflow/莫的老师/
: research下面的code。。。现象如下：
: 1，拿他pre-train的model，跑我的dataset X，accuracy为a
: 2，基于pretrain的model，我在X上fine-tune，然后再在X上测，accuracy为b，b<: 3，我自己用公版training script在X上train from scratch，accuracy为c，c<: 第3步，可以说是我技不如人，但是train.py应该是没大问题
: bother我的是第2步，别人的model在没见过我的dataset时的performance，比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释？决定跟这个问题死磕了。。。

w*r2018-05-03 07:05

19 楼

我把 fine tune batch norm关掉，貌似就好了。能解释吗？

: 你用的是哪个轮子？我很想仔细看眼。因为各种坑特别多，在这行干我感觉

: 全靠见得多。

【在 w***g 的大作中提到】

: 你用的是哪个轮子？我很想仔细看眼。因为各种坑特别多，在这行干我感觉
: 全靠见得多。

w*g2018-05-03 07:05

20 楼

TF有个坑是默认的batch_norm参数有问题。比如，我的model外面需要罩上这么多。
这个bn decay默认值也不是说有问题，毕竟人家那么牛的model也是这么train出来的。
但是对于小的dataset来说，默认的decay参数会收敛过慢。
我就知道这么多。
with slim.arg_scope([slim.conv2d, slim.conv2d_transpose, slim.max_pool2d
],
padding='SAME'), \
slim.arg_scope([slim.conv2d, slim.conv2d
_transpose], weights_regularizer=slim.l2_regularizer(2.5e-4), normalizer_fn=
slim.batch_norm, normalizer_params={'decay': 0.9, 'epsilon': 5e-4, 'scale':
False, 'is_training':is_training}), \
slim.arg_scope([slim.batch_norm], is_training=is_training):

【在 w*****r 的大作中提到】

: 我把 fine tune batch norm关掉，貌似就好了。能解释吗？
:
:
: 你用的是哪个轮子？我很想仔细看眼。因为各种坑特别多，在这行干我感觉
:
: 全靠见得多。
: