w*r
2 楼
我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
research下面的code。。。现象如下:
1,拿他pre-train的model,跑我的dataset X,accuracy为a
2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<3,我自己用公版training script在X上train from scratch,accuracy为c,c< 第3步,可以说是我技不如人,但是train.py应该是没大问题
bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
model在我的dataset加train几个epoch的结果还要好。。。
怎么解释?决定跟这个问题死磕了。。。
research下面的code。。。现象如下:
1,拿他pre-train的model,跑我的dataset X,accuracy为a
2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<3,我自己用公版training script在X上train from scratch,accuracy为c,c<
bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
model在我的dataset加train几个epoch的结果还要好。。。
怎么解释?决定跟这个问题死磕了。。。
r*n
3 楼
kao,住在我原来apt的隔壁...
【在 a******e 的大作中提到】
: http://www.tudou.com/programs/view/hHptVqSRFl0
: 留学生原创DV
【在 a******e 的大作中提到】
: http://www.tudou.com/programs/view/hHptVqSRFl0
: 留学生原创DV
g*t
4 楼
Try more epoch to check the trends?
In theory, the information should be fully absorbed if you use the dataset X
infinity times.
【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c< : 第3步,可以说是我技不如人,但是train.py应该是没大问题
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。
In theory, the information should be fully absorbed if you use the dataset X
infinity times.
【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c<
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。
w*g
6 楼
我四月份花了一整个星期研究为啥一个pytorch的resnet比
tf.slim的resnet在cifar10上收敛的快。train model水太深了。
2和3我估计是同一个问题。b和c比怎么样? 正常的话我严重怀疑你分辨率太大了。
【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c< : 第3步,可以说是我技不如人,但是train.py应该是没大问题
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。
tf.slim的resnet在cifar10上收敛的快。train model水太深了。
2和3我估计是同一个问题。b和c比怎么样? 正常的话我严重怀疑你分辨率太大了。
【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c<
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。
h*c
10 楼
听你们描述炼丹过程,感觉就是瞎几把乱试啊
z*n
11 楼
拍得有点正
应该表现一下wsn的ws
【在 a******e 的大作中提到】
: http://www.tudou.com/programs/view/hHptVqSRFl0
: 留学生原创DV
应该表现一下wsn的ws
【在 a******e 的大作中提到】
: http://www.tudou.com/programs/view/hHptVqSRFl0
: 留学生原创DV
x*u
12 楼
你做fine-tune的时候lr过大了吧
【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c< : 第3步,可以说是我技不如人,但是train.py应该是没大问题
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。
【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c<
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。
w*g
14 楼
难道不是这样的?
:
:听你们描述炼丹过程,感觉就是瞎几把乱试啊
:
:听你们描述炼丹过程,感觉就是瞎几把乱试啊
w*g
18 楼
你用的是哪个轮子? 我很想仔细看眼。 因为各种坑特别多,在这行干我感觉
全靠见得多。
【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c< : 第3步,可以说是我技不如人,但是train.py应该是没大问题
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。
全靠见得多。
【在 w*****r 的大作中提到】
: 我目前试了好几个github不同的open source DNN,包括tensorflow/莫的老师/
: research下面的code。。。现象如下:
: 1,拿他pre-train的model,跑我的dataset X,accuracy为a
: 2,基于pretrain的model,我在X上fine-tune,然后再在X上测,accuracy为b,b<: 3,我自己用公版training script在X上train from scratch,accuracy为c,c<
: bother我的是第2步,别人的model在没见过我的dataset时的performance,比我让该
: model在我的dataset加train几个epoch的结果还要好。。。
: 怎么解释?决定跟这个问题死磕了。。。
w*g
20 楼
TF有个坑是默认的batch_norm参数有问题。比如,我的model外面需要罩上这么多。
这个bn decay默认值也不是说有问题,毕竟人家那么牛的model也是这么train出来的。
但是对于小的dataset来说,默认的decay参数会收敛过慢。
我就知道这么多。
with slim.arg_scope([slim.conv2d, slim.conv2d_transpose, slim.max_pool2d
],
padding='SAME'), \
slim.arg_scope([slim.conv2d, slim.conv2d
_transpose], weights_regularizer=slim.l2_regularizer(2.5e-4), normalizer_fn=
slim.batch_norm, normalizer_params={'decay': 0.9, 'epsilon': 5e-4, 'scale':
False, 'is_training':is_training}), \
slim.arg_scope([slim.batch_norm], is_training=is_training):
【在 w*****r 的大作中提到】
: 我把 fine tune batch norm关掉,貌似就好了。能解释吗?
:
:
: 你用的是哪个轮子? 我很想仔细看眼。 因为各种坑特别多,在这行干我感觉
:
: 全靠见得多。
:
这个bn decay默认值也不是说有问题,毕竟人家那么牛的model也是这么train出来的。
但是对于小的dataset来说,默认的decay参数会收敛过慢。
我就知道这么多。
with slim.arg_scope([slim.conv2d, slim.conv2d_transpose, slim.max_pool2d
],
padding='SAME'), \
slim.arg_scope([slim.conv2d, slim.conv2d
_transpose], weights_regularizer=slim.l2_regularizer(2.5e-4), normalizer_fn=
slim.batch_norm, normalizer_params={'decay': 0.9, 'epsilon': 5e-4, 'scale':
False, 'is_training':is_training}), \
slim.arg_scope([slim.batch_norm], is_training=is_training):
【在 w*****r 的大作中提到】
: 我把 fine tune batch norm关掉,貌似就好了。能解释吗?
:
:
: 你用的是哪个轮子? 我很想仔细看眼。 因为各种坑特别多,在这行干我感觉
:
: 全靠见得多。
:
相关阅读
有JAVA底子学习web service那些库或者framework有没有什么好方法争论个鬼,产品才是硬道理问个C#的问题我们来聊聊paradigms吧严肃的问大家一个问题 我想转cuda,可行吗BIOS或Boot Loader中的程序能直接运行(不通过内存)吗?Agile适用于什么项目?科技日新月异,知识淘汰如换衣履,中国码工相当sb一般操作很多的数据用什么数据结构?转行CS但是没有OPT的到底是怎么找到工作的? (转载)clojure 是lisp, 是好语言,但一辈子是小众,火不起来rails和java,c#的rest web services比较,有何优缺点?请问图形搜索所有路径问题买macbook pro到哪买划算?不明白为啥全都冲着WEB义无反顾的扎进去你妈用VS写个helloworld真难啊。请问哪里能找到会NLP或者information retrieval的programmer?目前看就是做web,python也被落在最后微软说自己是良b,所有人都笑了