deep learning 的时候要把所有数据都读到内存里？ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

deep learning 的时候要把所有数据都读到内存里？

deep learning 的时候要把所有数据都读到内存里？# Programming - 葵花宝典

d*r2018-03-01 08:03

1 楼

http://v.youku.com/v_show/id_XNTc2Njg0NDQ4.html

w*h2018-03-01 08:03

2 楼

现在的网文小说，一大波都是总裁文，当然指的是女频。
这些总裁文全都一个套路，非常夸张的人设，非常狗血的剧情，非常脑残的对白，然鹅
，依旧有很多读者看，我也看了不少篇，但是都没有耐心看完，因为太狗血，很多都是
逻辑有问题的，居然这样的也能上架开V赚钱，真的是服了。
说说都是什么搞笑套路吧，让大家乐一乐。
开篇就是五星级酒店大床，女的被下药了，躺在床上，男主角这时候就进来了，然后女
主角就被迫和男主角啪啪了，俩人就这么扯上关系了。
男主一开始不鸟女主，后来经过一系列的矛盾，男主说：女人，你成功引起了我的注意！
尼玛，这句话我都已经从几十本总裁文里看到过了，真的不嫌烦啊，到底总裁文都是什
么群体看的，我怀疑就是没有谈过恋爱的初中女生，稍微成熟点的女性，也看不下去。
男主角毫无理由的就疯狂爱上了女主角，就因为睡过了，就强宠她，要什么买什么，买
一栋商场就可以，反正总裁就是超级有钱的主，长得又是超级的帅，简直了，这样的人
生，岂不是开挂了吗，而且总裁年纪轻轻的就坐上了总裁的地位，真无语。

a*d2018-03-01 08:03

3 楼

就是鼠标滚轮速度，总是会自己回到1，每次我都改为3，可是不知道什么时候它就会
自己变为1，真是奇怪，我的OS是 windows 7 ultimate Sp1，鼠标是Logitech V450，
有人有同样情况么？

k*i2018-03-01 08:03

4 楼

null

s*f2018-03-01 08:03

5 楼

如果数据是图像，没这么大内存怎么办？

d*r2018-03-01 08:03

6 楼

虽然拍得不错，不过对这个结果不是很满意，这就是东方不败的三种死法，没有跳
出金庸的条条框框。

M*h2018-03-01 08:03

7 楼

确实如此，都是脑残文

j*l2018-03-01 08:03

8 楼

link?

w*g2018-03-01 08:03

9 楼

从SSD随机读。我写picpac就是专门为了对付这种情况。
我现在正在大改版，主要是用C++重写imgaug那套东西。你要不要试试？
config = {"db": "train.spoly.db", #事先导入到存在SSD上的db文件。
"loop": True,
"shuffle": True,
"annotate": True,
"channels": 1,
"dtype": "float32",
"transforms": [
{"type": "augment.flip", "horizontal": True, "vertical":
True},
{"type": "augment.rotate", "min":-180, "max":180},
{"type": "augment.scale", "min":0.7, "max":1.2},
{"type": "clip", "round": 4},
#{"type": "colorspace", "code": "BGR2HSV", "mul0": 1.0/255
},
{"type": "augment.add", "range":20},
#{"type": "colorspace", "code": "HSV2BGR", "mul1": 255.0},
{"type": "rasterize"}, # annotation是polygons
# 这个操作把polygons变成masks
# 我正在写做mask-RCNN的anchor和minimask操作。
# transforms是可以嵌套的，imgaug的sometimes和someof
# 都可以实现。
]
}
tr_stream = picpac.ImageStream(config)
for _, images, masks in tr_stream:
mm, _ = sess.run([metrics, train_op], feed_dict={X: images, Y:
masks})
Keras也很容易。tr_stream本身就是个generator，fit_generator应该就行。
pytorch也是这个套路。
在 silentwolf (沉默的狼) 的大作中提到: 】

s*r2018-03-01 08:03

10 楼

看几十本就是鉴定脑残吗？感谢尝毒草。
不过估计还是有真爱的：-）比如像我这样的，一本都看不下去，所以基本一无所知。

k*i2018-03-01 08:03

11 楼

http://www.samsclub.com/sams/shop/product.jsp?productId=prod459

【在 j*****l 的大作中提到】

: link?

w*g2018-03-01 08:03

12 楼

搞deeplearning的同学看到了请帮我挑挑刺，包括哪些用词可以改的
建议也好。我想把这个东西做的精致一点。
transforms这个结构从python传入会转成json，然后在C++中构造
对应的类实现。扩展的话也需要写C++。

【在 w***g 的大作中提到】

: 从SSD随机读。我写picpac就是专门为了对付这种情况。
: 我现在正在大改版，主要是用C++重写imgaug那套东西。你要不要试试？
: config = {"db": "train.spoly.db", #事先导入到存在SSD上的db文件。
: "loop": True,
: "shuffle": True,
: "annotate": True,
: "channels": 1,
: "dtype": "float32",
: "transforms": [
: {"type": "augment.flip", "horizontal": True, "vertical":

g*g2018-03-01 08:03

13 楼

只有有人看就有人写

l*u2018-03-01 08:03

14 楼

showing 394?

【在 k***i 的大作中提到】

: http://www.samsclub.com/sams/shop/product.jsp?productId=prod459

m*o2018-03-01 08:03

15 楼

用minibatch做在线学习。

【在 s********f 的大作中提到】

: 如果数据是图像，没这么大内存怎么办？

a*m2018-03-01 08:03

16 楼

已经没有了。

m*o2018-03-01 08:03

17 楼

这个和tensorflow的dataset api相比效率如何？

【在 w***g 的大作中提到】

a*m2018-03-01 08:03

18 楼

加入货车以后价格会变。

【在 l*****u 的大作中提到】

: showing 394?

w*g2018-03-01 08:03

19 楼

没有benchmark过。我这个是一个数据库。tfrecord好像不支持random access。
我当初是想做一个独立于各个框架的数据接入方案。
我自己感觉，效率应该不会比tf低。

【在 m****o 的大作中提到】

: 这个和tensorflow的dataset api相比效率如何？

l*u2018-03-01 08:03

20 楼

就是加了火车以后还是394，只好又拿掉了。

【在 a********m 的大作中提到】

: 加入货车以后价格会变。

g*u2018-03-01 08:03

21 楼

dataset api不就是干这个的吗？

b*t2018-03-01 08:03

22 楼

价格是变了
"We're sorry.The requested quantity for this item is currently unavailable"

【在 l*****u 的大作中提到】

: 就是加了火车以后还是394，只好又拿掉了。

m*o2018-03-01 08:03

23 楼

dataset api可以shuffle数据源

【在 w***g 的大作中提到】

: 没有benchmark过。我这个是一个数据库。tfrecord好像不支持random access。
: 我当初是想做一个独立于各个框架的数据接入方案。
: 我自己感觉，效率应该不会比tf低。

a*m2018-03-01 08:03

24 楼

奇怪。俺是会变成99，但是不能check out，说已经不available了。

【在 l*****u 的大作中提到】

: 就是加了火车以后还是394，只好又拿掉了。

g*u2018-03-01 08:03

25 楼

不是建议组织数据的时候自己先shuffle，训练的时候在shuffle影响时间？

【在 m****o 的大作中提到】

: dataset api可以shuffle数据源

j*l2018-03-01 08:03

26 楼

Inventory is Out Of Stock for Item Number408882: Please remove the item from
cart or save for later to continue
不折腾了反正从Hp抢到1个32g的

w*g2018-03-01 08:03

27 楼

世事变化太快。我做第一个版本的这个软件时还没有tensorflow。
后来又出来了nervana neon，后来nervana neon又完蛋了。
然后mxnet又一直不温不火，然后出来caffe2半死不活了很长时间。
有一阵lua的torch也很火，我还做了lua的binding。
然后pytorch火了。将来说不定大家嫌TF和pytorch太臃肿了，
又会出来别的什么小清新，或者别的语言。
我感觉最初的目标其实没错，就是到最后其实dataset为王。
我的目标是为dataset服务。只是单兵作战战斗力有限，很多功能
没法实现，搞来搞去功能还不如dataset api多。

【在 g*******u 的大作中提到】

: dataset api不就是干这个的吗？

d*g2018-03-01 08:03

28 楼

这样买下来和32GB价格差不多。还好在OOS前下单了

【在 k***i 的大作中提到】

: null

w*g2018-03-01 08:03

29 楼

如果你有100G数据，想在每个epoch reshuffle，估计就独我一家可以支持了。
虽然其实reshuffle了也是然并卵。但他们那么建议是因为软件设计无法支持
reshuffle。Design decision不一样，代码没什么困难的。

【在 g*******u 的大作中提到】

: 不是建议组织数据的时候自己先shuffle，训练的时候在shuffle影响时间？

g*u2018-03-01 08:03

30 楼

我靠人家g 好几十人甚至好几百人，你一个人要单挑人家啊
单挑可以，群殴肯定不行啊

【在 w***g 的大作中提到】

: 世事变化太快。我做第一个版本的这个软件时还没有tensorflow。
: 后来又出来了nervana neon，后来nervana neon又完蛋了。
: 然后mxnet又一直不温不火，然后出来caffe2半死不活了很长时间。
: 有一阵lua的torch也很火，我还做了lua的binding。
: 然后pytorch火了。将来说不定大家嫌TF和pytorch太臃肿了，
: 又会出来别的什么小清新，或者别的语言。
: 我感觉最初的目标其实没错，就是到最后其实dataset为王。
: 我的目标是为dataset服务。只是单兵作战战斗力有限，很多功能
: 没法实现，搞来搞去功能还不如dataset api多。

m*o2018-03-01 08:03

31 楼

https://www.tensorflow.org/api_docs/python/tf/data/TextLineDataset#shuffle
有一种情况是数据量太大，那样只能shuffle index，在训练的时候用shuffled index
random access rows。我想tensorflow可以直接给省了这一步？

【在 g*******u 的大作中提到】

: 不是建议组织数据的时候自己先shuffle，训练的时候在shuffle影响时间？

w*g2018-03-01 08:03

32 楼

shuffle index是可以的。但是数据就只能保存成单个文件。
这样其实也没啥问题。性能上不会有本质损失。

index

【在 m****o 的大作中提到】

: https://www.tensorflow.org/api_docs/python/tf/data/TextLineDataset#shuffle
: 有一种情况是数据量太大，那样只能shuffle index，在训练的时候用shuffled index
: random access rows。我想tensorflow可以直接给省了这一步？

w*r2018-03-01 08:03

33 楼

我看过picpac,除你自己，其他人要想上手改，不太容易
1, 建议把对不同framework的支持的粘合代码放到分别的文件夹下。比如我估计只care
TF和caffe，以后也许会有caffe2
2, 把图像变换函数做成Lib,和picpac分开，picpac只负责streaming，shuffle,和不同
框架对接。你就算写再多的imgaug功能，也不可能适应所以行业用户的每一个需求。
3, clean code,多写点注释,降低用户的learning curves

: 搞deeplearning的同学看到了请帮我挑挑刺，包括哪些用词可以改的

: 建议也好。我想把这个东西做的精致一点。

: transforms这个结构从python传入会转成json，然后在C 中构造

: 对应的类实现。扩展的话也需要写C 。

【在 w***g 的大作中提到】

: shuffle index是可以的。但是数据就只能保存成单个文件。
: 这样其实也没啥问题。性能上不会有本质损失。
:
: index

m*o2018-03-01 08:03

34 楼

对C/C++一窍不通，没法comment你的库：）但是如果是多个文件的话，我想应该可以先
对文件名序列本身做shuffle，然后随机顺序读取文件以后，再对文件rows做random
shuffleing。如果不担心文件本身顺序是否要保持，Linux底下有一个命令shuf，可以
直接in place shuffle rows。

【在 w***g 的大作中提到】

: shuffle index是可以的。但是数据就只能保存成单个文件。
: 这样其实也没啥问题。性能上不会有本质损失。
:
: index

w*g2018-03-01 08:03

35 楼

streaming和augmentation没法分开最大的原因是python的多线程支持不好。
我没法从python接收一个imgaug实现的回调函数然后放到16个线程里面跑。
我不知道tf是怎么实现的。估计得用多进程共享内存。

care

【在 w*****r 的大作中提到】

: 我看过picpac,除你自己，其他人要想上手改，不太容易
: 1, 建议把对不同framework的支持的粘合代码放到分别的文件夹下。比如我估计只care
: TF和caffe，以后也许会有caffe2
: 2, 把图像变换函数做成Lib,和picpac分开，picpac只负责streaming，shuffle,和不同
: 框架对接。你就算写再多的imgaug功能，也不可能适应所以行业用户的每一个需求。
: 3, clean code,多写点注释,降低用户的learning curves
:
:
: 搞deeplearning的同学看到了请帮我挑挑刺，包括哪些用词可以改的
:
: 建议也好。我想把这个东西做的精致一点。
:
: transforms这个结构从python传入会转成json，然后在C 中构造

l*m2018-03-01 08:03

36 楼

现在的tf.dataset彻底和python没管了

【在 w***g 的大作中提到】

: streaming和augmentation没法分开最大的原因是python的多线程支持不好。
: 我没法从python接收一个imgaug实现的回调函数然后放到16个线程里面跑。
: 我不知道tf是怎么实现的。估计得用多进程共享内存。
:
: care

w*r2018-03-01 08:03

37 楼

你是要把imgaug集成到picpac,还是自己要用c++写一个imgaug?
如果是前者，我觉得不如让用户从picpac拿到数据后，再串联imgaug做处理