Redian新闻
>
deep learning 的时候要把所有数据都读到内存里?
avatar
w*h
2
现在的网文小说,一大波都是总裁文,当然指的是女频。
这些总裁文全都一个套路,非常夸张的人设,非常狗血的剧情,非常脑残的对白,然鹅
,依旧有很多读者看,我也看了不少篇,但是都没有耐心看完,因为太狗血,很多都是
逻辑有问题的,居然这样的也能上架开V赚钱,真的是服了。
说说都是什么搞笑套路吧,让大家乐一乐。
开篇就是五星级酒店大床,女的被下药了,躺在床上,男主角这时候就进来了,然后女
主角就被迫和男主角啪啪了,俩人就这么扯上关系了。
男主一开始不鸟女主,后来经过一系列的矛盾,男主说:女人,你成功引起了我的注意!
尼玛,这句话我都已经从几十本总裁文里看到过了,真的不嫌烦啊,到底总裁文都是什
么群体看的,我怀疑就是没有谈过恋爱的初中女生,稍微成熟点的女性,也看不下去。
男主角毫无理由的就疯狂爱上了女主角,就因为睡过了,就强宠她,要什么买什么,买
一栋商场就可以,反正总裁就是超级有钱的主,长得又是超级的帅,简直了,这样的人
生,岂不是开挂了吗,而且总裁年纪轻轻的就坐上了总裁的地位,真无语。
avatar
a*d
3
就是鼠标滚轮速度,总是会自己回到1,每次我都改为3, 可是不知道什么时候它就会
自己变为1,真是奇怪,我的OS是 windows 7 ultimate Sp1,鼠标是Logitech V450,
有人有同样情况么?
avatar
k*i
4
null
avatar
s*f
5
如果数据是图像,没这么大内存怎么办?
avatar
d*r
6
虽然拍得不错, 不过对这个结果不是很满意, 这就是东方不败的三种死法, 没有跳
出金庸的条条框框。
avatar
M*h
7
确实如此,都是脑残文
avatar
j*l
8
link?
avatar
w*g
9
从SSD随机读。我写picpac就是专门为了对付这种情况。
我现在正在大改版,主要是用C++重写imgaug那套东西。你要不要试试?
config = {"db": "train.spoly.db", #事先导入到存在SSD上的db文件。
"loop": True,
"shuffle": True,
"annotate": True,
"channels": 1,
"dtype": "float32",
"transforms": [
{"type": "augment.flip", "horizontal": True, "vertical":
True},
{"type": "augment.rotate", "min":-180, "max":180},
{"type": "augment.scale", "min":0.7, "max":1.2},
{"type": "clip", "round": 4},
#{"type": "colorspace", "code": "BGR2HSV", "mul0": 1.0/255
},
{"type": "augment.add", "range":20},
#{"type": "colorspace", "code": "HSV2BGR", "mul1": 255.0},
{"type": "rasterize"}, # annotation是polygons
# 这个操作把polygons变成masks
# 我正在写做mask-RCNN的anchor和minimask操作。
# transforms是可以嵌套的,imgaug的sometimes和someof
# 都可以实现。
]
}
tr_stream = picpac.ImageStream(config)
for _, images, masks in tr_stream:
mm, _ = sess.run([metrics, train_op], feed_dict={X: images, Y:
masks})
Keras也很容易。tr_stream本身就是个generator,fit_generator应该就行。
pytorch也是这个套路。
在 silentwolf (沉默的狼) 的大作中提到: 】
avatar
s*r
10
看几十本就是鉴定脑残吗?感谢尝毒草。
不过估计还是有真爱的 :-)比如像我这样的,一本都看不下去,所以基本一无所知。
avatar
w*g
12
搞deeplearning的同学看到了请帮我挑挑刺,包括哪些用词可以改的
建议也好。我想把这个东西做的精致一点。
transforms这个结构从python传入会转成json,然后在C++中构造
对应的类实现。扩展的话也需要写C++。

【在 w***g 的大作中提到】
: 从SSD随机读。我写picpac就是专门为了对付这种情况。
: 我现在正在大改版,主要是用C++重写imgaug那套东西。你要不要试试?
: config = {"db": "train.spoly.db", #事先导入到存在SSD上的db文件。
: "loop": True,
: "shuffle": True,
: "annotate": True,
: "channels": 1,
: "dtype": "float32",
: "transforms": [
: {"type": "augment.flip", "horizontal": True, "vertical":

avatar
g*g
13
只有有人看就有人写
avatar
m*o
15
用minibatch做在线学习。

【在 s********f 的大作中提到】
: 如果数据是图像,没这么大内存怎么办?
avatar
a*m
16
已经没有了。
avatar
m*o
17
这个和tensorflow的dataset api相比效率如何?

【在 w***g 的大作中提到】
: 从SSD随机读。我写picpac就是专门为了对付这种情况。
: 我现在正在大改版,主要是用C++重写imgaug那套东西。你要不要试试?
: config = {"db": "train.spoly.db", #事先导入到存在SSD上的db文件。
: "loop": True,
: "shuffle": True,
: "annotate": True,
: "channels": 1,
: "dtype": "float32",
: "transforms": [
: {"type": "augment.flip", "horizontal": True, "vertical":

avatar
a*m
18
加入货车以后价格会变。

【在 l*****u 的大作中提到】
: showing 394?
avatar
w*g
19
没有benchmark过。我这个是一个数据库。tfrecord好像不支持random access。
我当初是想做一个独立于各个框架的数据接入方案。
我自己感觉,效率应该不会比tf低。

【在 m****o 的大作中提到】
: 这个和tensorflow的dataset api相比效率如何?
avatar
l*u
20
就是加了火车以后还是394,只好又拿掉了。

【在 a********m 的大作中提到】
: 加入货车以后价格会变。
avatar
g*u
21
dataset api不就是干这个的吗?
avatar
b*t
22
价格是变了
"We're sorry.The requested quantity for this item is currently unavailable"

【在 l*****u 的大作中提到】
: 就是加了火车以后还是394,只好又拿掉了。
avatar
m*o
23
dataset api可以shuffle数据源

【在 w***g 的大作中提到】
: 没有benchmark过。我这个是一个数据库。tfrecord好像不支持random access。
: 我当初是想做一个独立于各个框架的数据接入方案。
: 我自己感觉,效率应该不会比tf低。

avatar
a*m
24
奇怪。俺是会变成99,但是不能check out,说已经不available了。

【在 l*****u 的大作中提到】
: 就是加了火车以后还是394,只好又拿掉了。
avatar
g*u
25
不是建议组织数据的时候自己先shuffle, 训练的时候在shuffle影响时间?

【在 m****o 的大作中提到】
: dataset api可以shuffle数据源
avatar
j*l
26
Inventory is Out Of Stock for Item Number408882: Please remove the item from
cart or save for later to continue
不折腾了 反正从Hp抢到1个32g的
avatar
w*g
27
世事变化太快。我做第一个版本的这个软件时还没有tensorflow。
后来又出来了nervana neon,后来nervana neon又完蛋了。
然后mxnet又一直不温不火,然后出来caffe2半死不活了很长时间。
有一阵lua的torch也很火,我还做了lua的binding。
然后pytorch火了。将来说不定大家嫌TF和pytorch太臃肿了,
又会出来别的什么小清新,或者别的语言。
我感觉最初的目标其实没错,就是到最后其实dataset为王。
我的目标是为dataset服务。只是单兵作战战斗力有限,很多功能
没法实现,搞来搞去功能还不如dataset api多。

【在 g*******u 的大作中提到】
: dataset api不就是干这个的吗?
avatar
d*g
28
这样买下来和32GB价格差不多。还好在OOS前下单了

【在 k***i 的大作中提到】
: null
avatar
w*g
29
如果你有100G数据,想在每个epoch reshuffle,估计就独我一家可以支持了。
虽然其实reshuffle了也是然并卵。但他们那么建议是因为软件设计无法支持
reshuffle。Design decision不一样,代码没什么困难的。

【在 g*******u 的大作中提到】
: 不是建议组织数据的时候自己先shuffle, 训练的时候在shuffle影响时间?
avatar
g*u
30
我靠 人家g 好几十人 甚至好几百人 , 你一个人要单挑人家啊
单挑可以,群殴肯定不行啊

【在 w***g 的大作中提到】
: 世事变化太快。我做第一个版本的这个软件时还没有tensorflow。
: 后来又出来了nervana neon,后来nervana neon又完蛋了。
: 然后mxnet又一直不温不火,然后出来caffe2半死不活了很长时间。
: 有一阵lua的torch也很火,我还做了lua的binding。
: 然后pytorch火了。将来说不定大家嫌TF和pytorch太臃肿了,
: 又会出来别的什么小清新,或者别的语言。
: 我感觉最初的目标其实没错,就是到最后其实dataset为王。
: 我的目标是为dataset服务。只是单兵作战战斗力有限,很多功能
: 没法实现,搞来搞去功能还不如dataset api多。

avatar
m*o
31
https://www.tensorflow.org/api_docs/python/tf/data/TextLineDataset#shuffle
有一种情况是数据量太大,那样只能shuffle index,在训练的时候用shuffled index
random access rows。我想tensorflow可以直接给省了这一步?

【在 g*******u 的大作中提到】
: 不是建议组织数据的时候自己先shuffle, 训练的时候在shuffle影响时间?
avatar
w*g
32
shuffle index是可以的。但是数据就只能保存成单个文件。
这样其实也没啥问题。性能上不会有本质损失。

index

【在 m****o 的大作中提到】
: https://www.tensorflow.org/api_docs/python/tf/data/TextLineDataset#shuffle
: 有一种情况是数据量太大,那样只能shuffle index,在训练的时候用shuffled index
: random access rows。我想tensorflow可以直接给省了这一步?

avatar
w*r
33
我看过picpac,除你自己,其他人要想上手改,不太容易
1, 建议把对不同framework的支持的粘合代码放到分别的文件夹下。比如我估计只care
TF和caffe,以后也许会有caffe2
2, 把图像变换函数做成Lib,和picpac分开,picpac只负责streaming,shuffle,和不同
框架对接。你就算写再多的imgaug功能,也不可能适应所以行业用户的每一个需求。
3, clean code,多写点注释,降低用户的learning curves


: 搞deeplearning的同学看到了请帮我挑挑刺,包括哪些用词可以改的

: 建议也好。我想把这个东西做的精致一点。

: transforms这个结构从python传入会转成json,然后在C 中构造

: 对应的类实现。扩展的话也需要写C 。



【在 w***g 的大作中提到】
: shuffle index是可以的。但是数据就只能保存成单个文件。
: 这样其实也没啥问题。性能上不会有本质损失。
:
: index

avatar
m*o
34
对C/C++一窍不通,没法comment你的库:)但是如果是多个文件的话,我想应该可以先
对文件名序列本身做shuffle,然后随机顺序读取文件以后,再对文件rows做random
shuffleing。如果不担心文件本身顺序是否要保持,Linux底下有一个命令shuf,可以
直接in place shuffle rows。

【在 w***g 的大作中提到】
: shuffle index是可以的。但是数据就只能保存成单个文件。
: 这样其实也没啥问题。性能上不会有本质损失。
:
: index

avatar
w*g
35
streaming和augmentation没法分开最大的原因是python的多线程支持不好。
我没法从python接收一个imgaug实现的回调函数然后放到16个线程里面跑。
我不知道tf是怎么实现的。估计得用多进程共享内存。

care

【在 w*****r 的大作中提到】
: 我看过picpac,除你自己,其他人要想上手改,不太容易
: 1, 建议把对不同framework的支持的粘合代码放到分别的文件夹下。比如我估计只care
: TF和caffe,以后也许会有caffe2
: 2, 把图像变换函数做成Lib,和picpac分开,picpac只负责streaming,shuffle,和不同
: 框架对接。你就算写再多的imgaug功能,也不可能适应所以行业用户的每一个需求。
: 3, clean code,多写点注释,降低用户的learning curves
:
:
: 搞deeplearning的同学看到了请帮我挑挑刺,包括哪些用词可以改的
:
: 建议也好。我想把这个东西做的精致一点。
:
: transforms这个结构从python传入会转成json,然后在C 中构造

avatar
l*m
36
现在的tf.dataset彻底和python没管了

【在 w***g 的大作中提到】
: streaming和augmentation没法分开最大的原因是python的多线程支持不好。
: 我没法从python接收一个imgaug实现的回调函数然后放到16个线程里面跑。
: 我不知道tf是怎么实现的。估计得用多进程共享内存。
:
: care

avatar
w*r
37
你是要把imgaug集成到picpac,还是自己要用c++写一个imgaug?
如果是前者,我觉得不如让用户从picpac拿到数据后,再串联imgaug做处理
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。