avatar
VAE autoencoder很诡异# Programming - 葵花宝典
s*7
1
请教各位前辈:
我今年秋季将开始助理教授生涯,现在跟系里谈 lab renovation. 他们说最快今年底
完工,很有可能更晚。那就是半年或半年以上,这是普遍情况么?我应该如何应对呢?
1)跟系主任要一小块temporary space, 来作一点实验或存放仪器。
2) 跟系主任谈推迟tenure promotion。
3) 基于合同已签,我应该不可能推迟工作开始时间了吧?
肯请各位前辈指点一二。不胜感激。
avatar
o*s
2
用什么表?万分感谢。
avatar
m*b
3
个人很怕冷,想给小小的书房买个heater,哪位推荐个吧。
很迷惑是热风的好,还是卤素灯的好?
avatar
l*u
4
比如在firepit里烧一把?
avatar
E*t
5
貌似胸很大啊:)
★ 发自iPhone App: ChineseWeb 8.6
avatar
L*8
6
Z=mean(X) + sigma(X)*epslon
epslon is random
KL:
mean(X)->0
sigma(X)->1
这不就是把输入给map到了一个固定数字, 然后变成随机
草 搞这么弯弯绕干啥, 直接上随机数不就行了
Z=0+ 1*epslon
avatar
s*y
7
半年很普遍。我的实验室就被折腾了半年,而且已经是算快的了。我们系里另外一个比
我晚一点来的更惨,整整弄了一年。
要临时地盘是非常正常的要求,还有一个要注意的就是,新发考题买东西的时候有
discount, 但是有些公司给的折扣有效时间很短(有的甚至只给三个月),所以你
需要一个储存地方来放你买的机器。
还有就是需要临时的冰箱来储存试剂。
推迟tenure是没戏的。推迟开始工作的时间比较麻烦(虽然不是不可能),需要改合同
什么的。

【在 s****7 的大作中提到】
: 请教各位前辈:
: 我今年秋季将开始助理教授生涯,现在跟系里谈 lab renovation. 他们说最快今年底
: 完工,很有可能更晚。那就是半年或半年以上,这是普遍情况么?我应该如何应对呢?
: 1)跟系主任要一小块temporary space, 来作一点实验或存放仪器。
: 2) 跟系主任谈推迟tenure promotion。
: 3) 基于合同已签,我应该不可能推迟工作开始时间了吧?
: 肯请各位前辈指点一二。不胜感激。

avatar
l*i
8

F6781, F1040 Schedule D,然后把schedule D第21项的数目填到F1040中Capital Gain
or Loss那一项

【在 o*******s 的大作中提到】
: 用什么表?万分感谢。
avatar
T*J
9
充油的好

【在 m****b 的大作中提到】
: 个人很怕冷,想给小小的书房买个heater,哪位推荐个吧。
: 很迷惑是热风的好,还是卤素灯的好?

avatar
T*4
10
据说我父辈老农说其他叶子烂了都是好肥料,独有松针不是,
不过烧了做草木灰肥料应该可以

【在 l*****u 的大作中提到】
: 比如在firepit里烧一把?
avatar
f*k
11
长的的确不错,估计没少受潜规则,香港这里娱乐圈这么黑暗。
不过听她唱歌,真是觉得,这就是声音没有辨识度的教科书般的案例。
avatar
M*0
12
最近也在了解VAE
同好奇。。
avatar
a*o
13
我也有同样的问题,需要半年时间,说是年底给装修好。不过好在我有两个实验室,所
以不会太着急。
avatar
o*s
14
谢谢回复。但是怎么报呢?我的损失都是已经实现的,不需要mark to the market. 需
要填哪一部份?
Part I Section 1256 Contracts Marked to Market
Part II Gains and Losses From Straddles. Attach a separate schedule listing
each straddle and its components.
Section A—Losses From Straddles
Section B—Gains From Straddles

Gain

【在 l******i 的大作中提到】
:
: F6781, F1040 Schedule D,然后把schedule D第21项的数目填到F1040中Capital Gain
: or Loss那一项

avatar
s*d
15
风的噪音很讨厌。
avatar
j*s
16
烧松针会不会很多烟?

【在 T*******4 的大作中提到】
: 据说我父辈老农说其他叶子烂了都是好肥料,独有松针不是,
: 不过烧了做草木灰肥料应该可以

avatar
d*0
17
挺有辨识度的。鼻音很重。

【在 f*******k 的大作中提到】
: 长的的确不错,估计没少受潜规则,香港这里娱乐圈这么黑暗。
: 不过听她唱歌,真是觉得,这就是声音没有辨识度的教科书般的案例。

avatar
g*t
18
这里mean, sigma是频率统计出来的吧?我不知道这个算法。常理来看不太会是const
avatar
f*h
19
It is very normal to have renovation running longer than half a year. I know
instances where it took more than a year. Usually you don't need a fully
renovated lab to start work. For some fields it will take at least half year
to get the instruments in place.
Option 1 is possible, 2 and 3 are never heard of to me.

【在 s****7 的大作中提到】
: 请教各位前辈:
: 我今年秋季将开始助理教授生涯,现在跟系里谈 lab renovation. 他们说最快今年底
: 完工,很有可能更晚。那就是半年或半年以上,这是普遍情况么?我应该如何应对呢?
: 1)跟系主任要一小块temporary space, 来作一点实验或存放仪器。
: 2) 跟系主任谈推迟tenure promotion。
: 3) 基于合同已签,我应该不可能推迟工作开始时间了吧?
: 肯请各位前辈指点一二。不胜感激。

avatar
s*y
20
我记得以前那种充油的都有味道吧?那些油哪里有卖的?homedepot?

【在 T**J 的大作中提到】
: 充油的好
avatar
T*m
21
能!烧了就是草木灰,很好的钾肥。

【在 l*****u 的大作中提到】
: 比如在firepit里烧一把?
avatar
l*i
22
她爆过肺,估计也就这样了
avatar
l*m
23
是的。 mean和sigma是一个神经网络的输出

【在 g****t 的大作中提到】
: 这里mean, sigma是频率统计出来的吧?我不知道这个算法。常理来看不太会是const
avatar
s*7
24
十分感谢各位前辈!
在前半年或一年没有实验室的情况下 (化学,生物方向),是否应该与系里同事合作
借用hood和仪器(发文章时给挂名),还是集中精力教课(1学期1门课)同时写grant?
肯请各位前辈指点一二。不胜感激。

grant?

【在 s****7 的大作中提到】
: 请教各位前辈:
: 我今年秋季将开始助理教授生涯,现在跟系里谈 lab renovation. 他们说最快今年底
: 完工,很有可能更晚。那就是半年或半年以上,这是普遍情况么?我应该如何应对呢?
: 1)跟系主任要一小块temporary space, 来作一点实验或存放仪器。
: 2) 跟系主任谈推迟tenure promotion。
: 3) 基于合同已签,我应该不可能推迟工作开始时间了吧?
: 肯请各位前辈指点一二。不胜感激。

avatar
T*J
25
哐当!为啥有味道?

【在 s****y 的大作中提到】
: 我记得以前那种充油的都有味道吧?那些油哪里有卖的?homedepot?
avatar
x*6
26
我们这里一个植物公园,全是用松针作mulch
avatar
l*r
27
爆肺是什么意思?

★ 发自iPhone App: ChineseWeb 7.8

【在 l****i 的大作中提到】
: 她爆过肺,估计也就这样了
avatar
s*V
28
是 Z = Activation(W X + b) 把,然后
mean(X)->0
sigma(X)->1
把一个normal distribution map 到任意 distribution.

【在 L****8 的大作中提到】
: Z=mean(X) + sigma(X)*epslon
: epslon is random
: KL:
: mean(X)->0
: sigma(X)->1
: 这不就是把输入给map到了一个固定数字, 然后变成随机
: 草 搞这么弯弯绕干啥, 直接上随机数不就行了
: Z=0+ 1*epslon

avatar
s*y
29
既然是做生物的,那么第一年应该集中精力写grant, 至于教学,只要不搞砸就行了。
在写grant的时候你常常会发现需要一些preliminary data, 在这个情况下就向同事借
仪器和地盘来做一些实验。在第一年,不要为了发文章而做实验,要为了申请资金而做。

grant?

【在 s****7 的大作中提到】
: 十分感谢各位前辈!
: 在前半年或一年没有实验室的情况下 (化学,生物方向),是否应该与系里同事合作
: 借用hood和仪器(发文章时给挂名),还是集中精力教课(1学期1门课)同时写grant?
: 肯请各位前辈指点一二。不胜感激。
:
: grant?

avatar
Z*I
30
会长蘑菇,各种蘑菇。比如我家就是这样,每天早起采蘑菇,然后扔进垃圾箱~~
avatar
M*0
31
何为爆肺啊,难道练的蛤蟆功?

【在 l****i 的大作中提到】
: 她爆过肺,估计也就这样了
avatar
L*8
32
z是随机数
https://blog.keras.io/building-autoencoders-in-keras.html
def sampling(args):
z_mean, z_log_sigma = args
epsilon = K.random_normal(shape=(batch_size, latent_dim),
mean=0., std=epsilon_std)
return z_mean + K.exp(z_log_sigma) * epsilon
z = Lambda(sampling, output_shape=(latent_dim,))([z_mean, z_log_sigma])

【在 s*****V 的大作中提到】
: 是 Z = Activation(W X + b) 把,然后
: mean(X)->0
: sigma(X)->1
: 把一个normal distribution map 到任意 distribution.

avatar
s*7
33
感谢sunneyday!
第一年直接申请经费,应该是基于薄厚时的数据。这时对于非top 20 school 的 PI,
应该target NIH (little chance with R01, so maybe R21, R03) , NSF 还是
private agencies ?
再次感谢各位前辈!

grant?

【在 s****7 的大作中提到】
: 十分感谢各位前辈!
: 在前半年或一年没有实验室的情况下 (化学,生物方向),是否应该与系里同事合作
: 借用hood和仪器(发文章时给挂名),还是集中精力教课(1学期1门课)同时写grant?
: 肯请各位前辈指点一二。不胜感激。
:
: grant?

avatar
c*p
34
你真是十万个为什么。。。
avatar
T*i
35
你个猥琐男 外加处男 谢最多是个B
avatar
x*u
36
一个随机数和一个随机变量再乘上一个随机数不等价啊
要是直接上随机数这么简单,随机过程不用搞了

【在 L****8 的大作中提到】
: Z=mean(X) + sigma(X)*epslon
: epslon is random
: KL:
: mean(X)->0
: sigma(X)->1
: 这不就是把输入给map到了一个固定数字, 然后变成随机
: 草 搞这么弯弯绕干啥, 直接上随机数不就行了
: Z=0+ 1*epslon

avatar
z*e
37
搭车问,
如果系里在工资,授课事宜都讲好,
却说,现在没有实验室可用。
更不知道可用的装修好的实验室什么时候拿到。
还没签合同,
那么是不是推迟报到更有利,
比如说先在原来老板处继续薄厚
还是象sunnyday说的,
仍然按原计划报到,
以写grant 和教课为主。
现在一头雾水,非常感谢你的回复。

grant?

【在 s****7 的大作中提到】
: 十分感谢各位前辈!
: 在前半年或一年没有实验室的情况下 (化学,生物方向),是否应该与系里同事合作
: 借用hood和仪器(发文章时给挂名),还是集中精力教课(1学期1门课)同时写grant?
: 肯请各位前辈指点一二。不胜感激。
:
: grant?

avatar
l*u
38
比如在firepit里烧一把?
avatar
V*n
39
是广东话,就是 气胸 一种肺病。

【在 l********r 的大作中提到】
: 爆肺是什么意思?
:
: ★ 发自iPhone App: ChineseWeb 7.8

avatar
w*g
40
这东西很重要么?
公式我看不了。keras的实现看了一眼。
我的理解是, 这里的mean和sigma只是两个dense layer的输出,
硬被这么命名罢了(可能推公式能推出统计意义。)
那么我们不妨把这两个重新命名为branch1和branch2。
branch1 = dense(input)
branch2 = dense(output)
output = branch1 + exp(branch2) * eps (branch2除以2我去掉了,没意义)
其中eps是正太随机数。
output是随机数。但是注意同一个输入会反复反复反复出现。所以最后在统计效应下,
output多次训练的平均作用还是趋于多次直接用branch1作用的效果。
假设eps一直等于0的前提下网络已经进入最优。 那么下一次任何一个非零
的eps出来都会导致网络受到绕动。根据动态平衡的原理,网络会产生一个副作用
来抵消这个影响。可以想象就是 branch2的那个dense layer的参数会变动,
使得exp(branch2)往0挪动。而exp又不可能是0。所以只能branch2越来越往负无穷大靠
拢。
为了避免跑飞,loss里面需要加一项branch2的某种模 -- 我在keras里没看到。
所以我的理解可能有误。
这么一强制加噪声,其实就相当于在中间feature层加了个data augmentation,
迫使decoding层变得更加强壮。branch2之所以叫log_var。或者像楼主表述的,
exp(branch2)叫做var。 本意应该是encoding层其实有对象识别的功能。
如果识别出来发现输入对象噪声大,就通过增大var放大eps的作用,多做点
augmentation。如果识别出来发现对象变动小,var就小点,少做点
data augmentation。或者简化点说,encoding部分同时也负责估计输入所在
category的generalization loss,并按此指导augmentation的程度。
然而在整个loss中并没有发现什么机制使得branch2的输出拟合到假想的
刻画generalization loss的var。
所以我估计实际操作中branch2其实也不会你合到var,而是处于一个比较
小的值而已。(可能这个机制在公式中我没看到。)
然而这么做真有用么?和直接对样本做augmentation比。
可能就是直接对样本做augmentation需要有领域知识,而对feature
做augmentation可以直接加gaussian noise。

【在 L****8 的大作中提到】
: Z=mean(X) + sigma(X)*epslon
: epslon is random
: KL:
: mean(X)->0
: sigma(X)->1
: 这不就是把输入给map到了一个固定数字, 然后变成随机
: 草 搞这么弯弯绕干啥, 直接上随机数不就行了
: Z=0+ 1*epslon

avatar
z*e
41
是不是都去踹踹啊。

【在 s****7 的大作中提到】
: 感谢sunneyday!
: 第一年直接申请经费,应该是基于薄厚时的数据。这时对于非top 20 school 的 PI,
: 应该target NIH (little chance with R01, so maybe R21, R03) , NSF 还是
: private agencies ?
: 再次感谢各位前辈!
:
: grant?

avatar
T*4
42
据说我父辈老农说其他叶子烂了都是好肥料,独有松针不是,
不过烧了做草木灰肥料应该可以

【在 l*****u 的大作中提到】
: 比如在firepit里烧一把?
avatar
V*n
43
拜托, 人27 28 岁才出道, 要受潜规则会等到这么晚么? 黄花菜都凉了
我是她的歌迷,请看我写的介绍(吹捧)文章

【在 f*******k 的大作中提到】
: 长的的确不错,估计没少受潜规则,香港这里娱乐圈这么黑暗。
: 不过听她唱歌,真是觉得,这就是声音没有辨识度的教科书般的案例。

avatar
x*u
44
Keras的VAE博客里的loss里面的KL散度不就是防止跑飞的吗?
不过我不看好现有任何生成模型,这个思路用来给照片翻新做旧可以,能给小电影去码
已经是极限了,指望生成更靠谱输出实在太难。
希望生成模型好使的话网络容量必须要大,但现有可微分编程体系下容量越大的网络越
没法优化,这个矛盾无法解决。

【在 w***g 的大作中提到】
: 这东西很重要么?
: 公式我看不了。keras的实现看了一眼。
: 我的理解是, 这里的mean和sigma只是两个dense layer的输出,
: 硬被这么命名罢了(可能推公式能推出统计意义。)
: 那么我们不妨把这两个重新命名为branch1和branch2。
: branch1 = dense(input)
: branch2 = dense(output)
: output = branch1 + exp(branch2) * eps (branch2除以2我去掉了,没意义)
: 其中eps是正太随机数。
: output是随机数。但是注意同一个输入会反复反复反复出现。所以最后在统计效应下,

avatar
s*y
45
我当时有和你一样的问题,我就是果断推迟了报到时间,原因么,主要是一旦开始报到
,就有一个tenure clock 的问题。如果你没有进展而在那里白白耗着,就是浪费了自
己的tenure clock。
另外一个原因的是我们学校的tenure clock是在7月份开始算的,所以如果在每年的一
月份开始工作的话是赚了6个月,如果在7月份之后工作的话就是亏了。 当然,这个你
需要去问你们学校的人。看他们的tenure clock是怎么算的。

【在 z******e 的大作中提到】
: 搭车问,
: 如果系里在工资,授课事宜都讲好,
: 却说,现在没有实验室可用。
: 更不知道可用的装修好的实验室什么时候拿到。
: 还没签合同,
: 那么是不是推迟报到更有利,
: 比如说先在原来老板处继续薄厚
: 还是象sunnyday说的,
: 仍然按原计划报到,
: 以写grant 和教课为主。

avatar
j*s
46
烧松针会不会很多烟?

【在 T*******4 的大作中提到】
: 据说我父辈老农说其他叶子烂了都是好肥料,独有松针不是,
: 不过烧了做草木灰肥料应该可以

avatar
w*g
47
作为前DL时代过来的人,我已经不信任何公式了。
管不管用我要看benchmark。

【在 x****u 的大作中提到】
: Keras的VAE博客里的loss里面的KL散度不就是防止跑飞的吗?
: 不过我不看好现有任何生成模型,这个思路用来给照片翻新做旧可以,能给小电影去码
: 已经是极限了,指望生成更靠谱输出实在太难。
: 希望生成模型好使的话网络容量必须要大,但现有可微分编程体系下容量越大的网络越
: 没法优化,这个矛盾无法解决。

avatar
s*y
48
我的建议就是把所有能申请的都申请一遍。然后你就大概知道自己是在什么地位了。
唯一的例外就是不要轻易申请R01,除非你的申请确实准备好了。

【在 s****7 的大作中提到】
: 感谢sunneyday!
: 第一年直接申请经费,应该是基于薄厚时的数据。这时对于非top 20 school 的 PI,
: 应该target NIH (little chance with R01, so maybe R21, R03) , NSF 还是
: private agencies ?
: 再次感谢各位前辈!
:
: grant?

avatar
T*m
49
能!烧了就是草木灰,很好的钾肥。

【在 l*****u 的大作中提到】
: 比如在firepit里烧一把?
avatar
b*o
50
贴一张完整的VAE的training图。
大牛能不能补充一下您的意见。

【在 w***g 的大作中提到】
: 这东西很重要么?
: 公式我看不了。keras的实现看了一眼。
: 我的理解是, 这里的mean和sigma只是两个dense layer的输出,
: 硬被这么命名罢了(可能推公式能推出统计意义。)
: 那么我们不妨把这两个重新命名为branch1和branch2。
: branch1 = dense(input)
: branch2 = dense(output)
: output = branch1 + exp(branch2) * eps (branch2除以2我去掉了,没意义)
: 其中eps是正太随机数。
: output是随机数。但是注意同一个输入会反复反复反复出现。所以最后在统计效应下,

avatar
z*e
51
非常感谢。
那我尽可能推迟到一月份。

【在 s******y 的大作中提到】
: 我当时有和你一样的问题,我就是果断推迟了报到时间,原因么,主要是一旦开始报到
: ,就有一个tenure clock 的问题。如果你没有进展而在那里白白耗着,就是浪费了自
: 己的tenure clock。
: 另外一个原因的是我们学校的tenure clock是在7月份开始算的,所以如果在每年的一
: 月份开始工作的话是赚了6个月,如果在7月份之后工作的话就是亏了。 当然,这个你
: 需要去问你们学校的人。看他们的tenure clock是怎么算的。

avatar
x*6
52
我们这里一个植物公园,全是用松针作mulch
avatar
x*u
53
我觉得VAE里面最清奇的思路是loss函数啊

【在 b*****o 的大作中提到】
: 贴一张完整的VAE的training图。
: 大牛能不能补充一下您的意见。

avatar
s*y
54
注意问清楚他们的tenure clock 是从那个月开始算的,以及如果在1月份开始,到底是
让你多了几个月还是少了几个月。不同学校很可能不一样。一定要小心!

【在 z******e 的大作中提到】
: 非常感谢。
: 那我尽可能推迟到一月份。

avatar
Z*I
55
会长蘑菇,各种蘑菇。比如我家就是这样,每天早起采蘑菇,然后扔进垃圾箱~~
avatar
w*g
56
谢谢你的图,比看paper清楚多了。
我再问一下,这东西真的实战证明有用吗? 光开脑洞没用的。
好处我前面已经提了,因为怀疑,所以我再对着图恶毒地写几句。
因为我不想学/实现这个东西。
- 中间这个VAE层从结构上看是一个普世结构。可以类比batch_norm
或者bottleneck结构。如果真有用,应该在网络中大量反复出现。
- 强行把中间层输出变成一个分布,会损害网络拟合能力。
其实就是个multitask network。为啥有一个prediction head要
拟合正太分布? 经过前面若干层网络出来的东西,本来已经
啥也说不清了,我感觉这个正太分布是强行拟合,而不是输入应该
是正太的。作用也是让后续decoding可能会容易点。
- 我再乱说下。我猜这个作者肯定是学院派上代AI寒冬冬眠后又
活过来的遗老或者数学物理方面过来蹭热度的外行。估计从来
没实现过大型网络。因为他选了个正太分布。实战中经过ReLU,
中间曾都是极其稀疏的,并且全是正的。哪有什么正态分布。
至少ReLU要改。(对比batch_norm. batch_norm是买回来东西
自己改改再用,VAE相当于逼卖家改好了再买。)

【在 b*****o 的大作中提到】
: 贴一张完整的VAE的training图。
: 大牛能不能补充一下您的意见。

avatar
r*g
57
这个我也是以没有完全完成以前薄厚实验室得工作为由拖到1月份入职得,正好半年用
来set up 实验室,tenure从第二年8月开始。

【在 z******e 的大作中提到】
: 非常感谢。
: 那我尽可能推迟到一月份。

avatar
c*p
58
你真是十万个为什么。。。
avatar
x*u
59
实战有没有用另说,但这货实际上是自监督训练,目的是训练一个生成网络的
理想情况是用这个生成网络可以根据不同采样生成和原始数据一个类别的图片,至于实
际效果不好,只能说明现有优化技术不够
但VAE作为生成模型再烂,也比直接把随机数拿来用CNN梯度上升效果好,后者生成的根
本不是有意义的图片,只能算对抗图片

【在 w***g 的大作中提到】
: 谢谢你的图,比看paper清楚多了。
: 我再问一下,这东西真的实战证明有用吗? 光开脑洞没用的。
: 好处我前面已经提了,因为怀疑,所以我再对着图恶毒地写几句。
: 因为我不想学/实现这个东西。
: - 中间这个VAE层从结构上看是一个普世结构。可以类比batch_norm
: 或者bottleneck结构。如果真有用,应该在网络中大量反复出现。
: - 强行把中间层输出变成一个分布,会损害网络拟合能力。
: 其实就是个multitask network。为啥有一个prediction head要
: 拟合正太分布? 经过前面若干层网络出来的东西,本来已经
: 啥也说不清了,我感觉这个正太分布是强行拟合,而不是输入应该

avatar
z*e
60
谢谢提醒,
我去核实下。

【在 s******y 的大作中提到】
: 我当时有和你一样的问题,我就是果断推迟了报到时间,原因么,主要是一旦开始报到
: ,就有一个tenure clock 的问题。如果你没有进展而在那里白白耗着,就是浪费了自
: 己的tenure clock。
: 另外一个原因的是我们学校的tenure clock是在7月份开始算的,所以如果在每年的一
: 月份开始工作的话是赚了6个月,如果在7月份之后工作的话就是亏了。 当然,这个你
: 需要去问你们学校的人。看他们的tenure clock是怎么算的。

avatar
s*g
61
看到视频上老外种蓝莓要用一层松针铺在上面
avatar
w*g
62
他叫autoencoder所以我没按生成网络来理解。
似乎确乎是有用的。

【在 x****u 的大作中提到】
: 实战有没有用另说,但这货实际上是自监督训练,目的是训练一个生成网络的
: 理想情况是用这个生成网络可以根据不同采样生成和原始数据一个类别的图片,至于实
: 际效果不好,只能说明现有优化技术不够
: 但VAE作为生成模型再烂,也比直接把随机数拿来用CNN梯度上升效果好,后者生成的根
: 本不是有意义的图片,只能算对抗图片

avatar
z*e
63
timing不错。

【在 r*********g 的大作中提到】
: 这个我也是以没有完全完成以前薄厚实验室得工作为由拖到1月份入职得,正好半年用
: 来set up 实验室,tenure从第二年8月开始。

avatar
R*C
64
好像说松针是酸性的
avatar
l*m
65
老大果然不读Bayesian的文章了,这篇作者就是ADAM的作者,很年轻。这篇被誉为所谓
deep bayesian network的基石。但是老Bayesian们,认为就是炒1994年Bishop的
mixture density network冷饭。高斯吗,是人类少数搞定的分布,所以就假设了。VAE
很快就被GAN打脸了,应为GAN没有分布的假设。当然GAN也不能做distribution
inference.

【在 w***g 的大作中提到】
: 谢谢你的图,比看paper清楚多了。
: 我再问一下,这东西真的实战证明有用吗? 光开脑洞没用的。
: 好处我前面已经提了,因为怀疑,所以我再对着图恶毒地写几句。
: 因为我不想学/实现这个东西。
: - 中间这个VAE层从结构上看是一个普世结构。可以类比batch_norm
: 或者bottleneck结构。如果真有用,应该在网络中大量反复出现。
: - 强行把中间层输出变成一个分布,会损害网络拟合能力。
: 其实就是个multitask network。为啥有一个prediction head要
: 拟合正太分布? 经过前面若干层网络出来的东西,本来已经
: 啥也说不清了,我感觉这个正太分布是强行拟合,而不是输入应该

avatar
M*k
66
我知道一个新PI,她的实验室在一个原来车库的地方,说是要弄一两年才能弄好,而且
系里面没有其他的地方给她,非常郁闷。
avatar
g*t
67
两参数分布其实也可以假设fat tail效应类型的分布。不过一般人不熟悉这部分的数学
。所
以文献不多。常见的还是mean, sigma统计。
CDF:
F(x)= 1-(k/x)**a for x>k
股市再崩盘一次,也许variance不存在的分布会有更多人研究。


: 老大果然不读Bayesian的文章了,这篇作者就是ADAM的作者,很年轻。这
篇被誉
为所谓

: deep bayesian network的基石。但是老Bayesian们,认为就是炒1994年
Bishop的

: mixture density network冷饭。高斯吗,是人类少数搞定的分布,所以
就假设
了。VAE

: 很快就被GAN打脸了,应为GAN没有分布的假设。当然GAN也不能做
distribution

: inference.



【在 l*******m 的大作中提到】
: 老大果然不读Bayesian的文章了,这篇作者就是ADAM的作者,很年轻。这篇被誉为所谓
: deep bayesian network的基石。但是老Bayesian们,认为就是炒1994年Bishop的
: mixture density network冷饭。高斯吗,是人类少数搞定的分布,所以就假设了。VAE
: 很快就被GAN打脸了,应为GAN没有分布的假设。当然GAN也不能做distribution
: inference.

avatar
s*7
68
再次感谢各位前辈!
如果同时用一个想法申请多个经费,是否应该说明? 如果说明在同时申请多个经费,
会不会影响命中率?
肯请各位前辈指点一二。不胜感激。

grant?

【在 s****7 的大作中提到】
: 感谢sunneyday!
: 第一年直接申请经费,应该是基于薄厚时的数据。这时对于非top 20 school 的 PI,
: 应该target NIH (little chance with R01, so maybe R21, R03) , NSF 还是
: private agencies ?
: 再次感谢各位前辈!
:
: grant?

avatar
g*t
69
不是优化技术不好。是物理未必正确。没有互相关的信息。弄成N(0,1)有点过于简单粗
暴了。


: 实战有没有用另说,但这货实际上是自监督训练,目的是训练一个生成网络的

: 理想情况是用这个生成网络可以根据不同采样生成和原始数据一个类别的图片,
至于实

: 际效果不好,只能说明现有优化技术不够

: 但VAE作为生成模型再烂,也比直接把随机数拿来用CNN梯度上升效果好,后者生
成的根

: 本不是有意义的图片,只能算对抗图片



【在 x****u 的大作中提到】
: 实战有没有用另说,但这货实际上是自监督训练,目的是训练一个生成网络的
: 理想情况是用这个生成网络可以根据不同采样生成和原始数据一个类别的图片,至于实
: 际效果不好,只能说明现有优化技术不够
: 但VAE作为生成模型再烂,也比直接把随机数拿来用CNN梯度上升效果好,后者生成的根
: 本不是有意义的图片,只能算对抗图片

avatar
s*y
70
说不说明都无所谓。一般而言不影响命中率。
除非是同一个申请几乎一字不改的申请NIH 和NSF才必须说明。
如果申到了,在正式拿到钱之间有一个交代其他资金的手续,如果拿到了其他的钱要看
是否有冲突,如果有冲突,就必须两者之间二选一,或者其中一个把有冲突的部分的钱
给砍掉。

【在 s****7 的大作中提到】
: 再次感谢各位前辈!
: 如果同时用一个想法申请多个经费,是否应该说明? 如果说明在同时申请多个经费,
: 会不会影响命中率?
: 肯请各位前辈指点一二。不胜感激。
:
: grant?

avatar
x*u
71
理想就是拟合出个函数,你输入随机采样,随机性转化为个人字体随机产生图片,但不
少理论上有的东西上帝才能优化出来啊

【在 g****t 的大作中提到】
: 不是优化技术不好。是物理未必正确。没有互相关的信息。弄成N(0,1)有点过于简单粗
: 暴了。
:
:
: 实战有没有用另说,但这货实际上是自监督训练,目的是训练一个生成网络的
:
: 理想情况是用这个生成网络可以根据不同采样生成和原始数据一个类别的图片,
: 至于实
:
: 际效果不好,只能说明现有优化技术不够
:
: 但VAE作为生成模型再烂,也比直接把随机数拿来用CNN梯度上升效果好,后者生
: 成的根
:
: 本不是有意义的图片,只能算对抗图片

avatar
e*e
72
提醒一句,推迟入职也不都是都好。一个明显的问题就是少了半年的工资。另外很多公
立学校每年工资有一个固定的涨幅,如果入职晚半年比别人低3%的话,十几年后还是差
了不少。

【在 z******e 的大作中提到】
: 谢谢提醒,
: 我去核实下。

avatar
m*5
73
嘛,首先声明我本人并不熟悉生产网络, 所以讲的很可能不对。尝试从统计学角度来讲
一讲。
VAE实际是求解一个经典的贝页斯统计问题,假设我们有样本空间X符合分布P(X),如何
能够从一个样本子集获得一个近似分布P_{theta}(X),可以让我们从中取值生成新的样
本,很直观的办法就是直接推断含有隐变量的生产模型。
那么具体做法是 decoding Z->X (p(x|z)) Z是个高维隐变量.
而为了得到Z就是反过来,encoding X->Z (p(z|x))
因此问题变成如何得到encoder.由于Z是我们自己定义的一个变量,并且由于等量变换
的原因,我们可以固定其分布为p(z).比如选取N(0,1)
那么归根到底其实就是已知p(z)求一个后验分布p(z|x).
但是我们都知道这个后验分布是无法直接积分(p(x|z))求出的,只能找一个来近似的Q(
z).我们可以采用gibbs采样法
等MCMC积分方案,但是这个需要大量的样本,这在统计学习中通常是不可能的,即使可
能,收敛也极为缓慢。这就是为啥在图像处理中有人要用变分推断求,而变分推断其实
是很困难的,基本上要能得到结果都要要做大量假设:选取分布族q(lambda)。
而VAE就是用神经网络进行变分推断的一种方法,你其实可以不用神经网络进行变分推
断。既然知道是变分推断那么我么就知道要最大化ELBO(q_lambda({theta}))。这里
theta就是神经网络参数,也就是我们对theta进行优化产生一个参数lambda, 使得预选
分布族q(z,lambda)最接近p(z|x).
这里就到你所问问题关键了。如果网络是(theta, X)->(q, z)->X, loss 函数就是-
ELBO(q) 那么如何用backprop update theta对ELBO进行迭代求极值?
ELBO实际上是q的泛函, 很明显要求nabla(q(z))呢,看到了吧,这里输入是个函数q呢
,所以没法往后面传递哦。于是要把q(z)这层变成不是泛函的形式,随机变量要在上一
层传入才行 (theta, X, eps)->z->X. 当然做法就很多了,不过如果我们选取分布族是
正态,那么很简单z=mu + sigma * eps 就可以了。
所以你问为啥要用mean(X), sigma(X)还不明确么,这两个就是最重要的玩意儿lambda(
theta)啊,这个是用来逼近分布族参数q(z)的,整个VAE核心就是用神经网络逼近个东
西!!你如果丢掉这两个,那就等于没有神经网络。
那么为什么q(lambda)是正态族但是却要去喂X来update theta呢?很简单啊,q_lambda
(z, x)并不是正态分布啊那就是我们费劲要求的p(z|x)的近似啊。
最后要谈一下分布族选取,正态计算KL和nabla(ELBO)是最简单的,所以通常选正态族
,当然就有可能实际需要的q(z)完全和正态族不一样的情况,但这就是快速计算和数据
量太少要牺牲的东西。

【在 L****8 的大作中提到】
: Z=mean(X) + sigma(X)*epslon
: epslon is random
: KL:
: mean(X)->0
: sigma(X)->1
: 这不就是把输入给map到了一个固定数字, 然后变成随机
: 草 搞这么弯弯绕干啥, 直接上随机数不就行了
: Z=0+ 1*epslon

avatar
z*e
74
非常感谢前辈提醒。
未来十几年真没敢想,
主要还是担心前面几年能不能过去。
另外公立学校真能一直涨下去嘛。
那工资到退休前岂不都非常可观了。

【在 e*******e 的大作中提到】
: 提醒一句,推迟入职也不都是都好。一个明显的问题就是少了半年的工资。另外很多公
: 立学校每年工资有一个固定的涨幅,如果入职晚半年比别人低3%的话,十几年后还是差
: 了不少。

avatar
g*t
75
我没看文章。但我觉得可能没有你说的那么复杂吧。
是不是就是根据一系列样本,然后我们假设要求的解分布是被N(0,1)作为输入,从而驱
动出来的分布?这里的驱动机制是神经网络来描述。
假如给一系列的1D采样点,求分布,这个经典问题第一选择肯定是经济学家或者quant
的现成办法做一下。
这问题太经典了。有无数办法和各种tool.
2D的话,例如视频,很可能是ANN会慢慢主导这问题的求解。
另外fat tail这种分布我认为既然在股市有。在图像里肯定也有。


: 嘛,首先声明我本人并不熟悉生产网络, 所以讲的很可能不对。尝试从统
计学角
度来讲

: 一讲。

: VAE实际是求解一个经典的贝页斯统计问题,假设我们有样本空间X符合分
布P(X)
,如何

: 能够从一个样本子集获得一个近似分布P_{theta}(X),可以让我们从中取
值生成
新的样

: 本,很直观的办法就是直接推断含有隐变量的生产模型。

: 那么具体做法是 decoding Z-

【在 m********5 的大作中提到】
: 嘛,首先声明我本人并不熟悉生产网络, 所以讲的很可能不对。尝试从统计学角度来讲
: 一讲。
: VAE实际是求解一个经典的贝页斯统计问题,假设我们有样本空间X符合分布P(X),如何
: 能够从一个样本子集获得一个近似分布P_{theta}(X),可以让我们从中取值生成新的样
: 本,很直观的办法就是直接推断含有隐变量的生产模型。
: 那么具体做法是 decoding Z->X (p(x|z)) Z是个高维隐变量.
: 而为了得到Z就是反过来,encoding X->Z (p(z|x))
: 因此问题变成如何得到encoder.由于Z是我们自己定义的一个变量,并且由于等量变换
: 的原因,我们可以固定其分布为p(z).比如选取N(0,1)
: 那么归根到底其实就是已知p(z)求一个后验分布p(z|x).

avatar
e*e
76
要是有工会的话应该会涨。

【在 z******e 的大作中提到】
: 非常感谢前辈提醒。
: 未来十几年真没敢想,
: 主要还是担心前面几年能不能过去。
: 另外公立学校真能一直涨下去嘛。
: 那工资到退休前岂不都非常可观了。

avatar
m*5
77
我说的就是VAE的本质,求后验分布p(z|x), 我觉得这是没错的VAE就是用backprop
network实现VI。楼主的具体问题我觉得就是泛函转化为普通函数的问题,这个就不知
道对不对了。毕竟没看他的整个code.
实际上基本一切生产模型的本质都是求p(z|x),只是这个求法不同而已。可以断言,所
有生产网络不过是在高维空间对数据点进行resampling, interpolation or
extrapolation。所以一定会隐含或者显式的假设或者求解分布。
在系统上,这种取样方法不过是给一个有反馈的迭代系统输入加扰动,避免出现over-
fitting和不收敛的状态,这在控制系统中其实是很常用的办法,高维空间的新瓶装旧
酒而已。而且可以断言任何稳定的生成网络都会显式或者隐式的加入扰动(MCMC是通过
样本估计扰动分布,然后再加入扰动,所以需要的数据量很大,VAE是通过假设一个近
似分布,因此数据量小,GAN本质上估计是通过竞争来隐式的逼近扰动分布)

quant

【在 g****t 的大作中提到】
: 我没看文章。但我觉得可能没有你说的那么复杂吧。
: 是不是就是根据一系列样本,然后我们假设要求的解分布是被N(0,1)作为输入,从而驱
: 动出来的分布?这里的驱动机制是神经网络来描述。
: 假如给一系列的1D采样点,求分布,这个经典问题第一选择肯定是经济学家或者quant
: 的现成办法做一下。
: 这问题太经典了。有无数办法和各种tool.
: 2D的话,例如视频,很可能是ANN会慢慢主导这问题的求解。
: 另外fat tail这种分布我认为既然在股市有。在图像里肯定也有。
:
:
: 嘛,首先声明我本人并不熟悉生产网络, 所以讲的很可能不对。尝试从统

avatar
l*n
78
半年算什么,我知道一人,及其依赖实验室和设备的专业,三年了都没解决。结果此人
还大把拿钱拿奖发文章。领导窃喜:不吃草也产奶啊。此人几次差点撕破脸皮找dean发
火:好几次机会都因为这实验室不ready擦肩而过。
avatar
s*t
79

quant
mitbbs好像说的是对的
KL(q,p) + ELBO =log(p(x))
直接最小化KL div没法计算 就最大化ELBO
lz 问得问题好像叫reparameterization trick
然后就是梯度算法了 我随便看了一下别人的tutorial
见笑了

【在 g****t 的大作中提到】
: 我没看文章。但我觉得可能没有你说的那么复杂吧。
: 是不是就是根据一系列样本,然后我们假设要求的解分布是被N(0,1)作为输入,从而驱
: 动出来的分布?这里的驱动机制是神经网络来描述。
: 假如给一系列的1D采样点,求分布,这个经典问题第一选择肯定是经济学家或者quant
: 的现成办法做一下。
: 这问题太经典了。有无数办法和各种tool.
: 2D的话,例如视频,很可能是ANN会慢慢主导这问题的求解。
: 另外fat tail这种分布我认为既然在股市有。在图像里肯定也有。
:
:
: 嘛,首先声明我本人并不熟悉生产网络, 所以讲的很可能不对。尝试从统

avatar
s*y
80
三年都不给解决那也太过分了!要是我肯定就翻脸跳槽了。

【在 l******n 的大作中提到】
: 半年算什么,我知道一人,及其依赖实验室和设备的专业,三年了都没解决。结果此人
: 还大把拿钱拿奖发文章。领导窃喜:不吃草也产奶啊。此人几次差点撕破脸皮找dean发
: 火:好几次机会都因为这实验室不ready擦肩而过。

avatar
m*5
81
我认为VAE之所以快,就是因为ELBO作为loss函数在数学上是效率很高,基本无偏的。
之所以很多人不爽,也是是因为ELBO, 因为需要try假设的分布族,而不像MCMC一样是
估计出来的。

【在 s*****t 的大作中提到】
:
: quant
: mitbbs好像说的是对的
: KL(q,p) + ELBO =log(p(x))
: 直接最小化KL div没法计算 就最大化ELBO
: lz 问得问题好像叫reparameterization trick
: 然后就是梯度算法了 我随便看了一下别人的tutorial
: 见笑了

avatar
m*5
82
实际效果不好是数学上的难度,就是VI很难做
所以如果你选非常难的变分分布族,当然可以更好逼近输入,但是很难的分布族你又得
不到ELBO。
所以有人就想到用MCMC+VAE
另外就是用GAN来搞推断,这样就不用强假设
比如这个ALI:
https://arxiv.org/abs/1606.00704

【在 x****u 的大作中提到】
: 实战有没有用另说,但这货实际上是自监督训练,目的是训练一个生成网络的
: 理想情况是用这个生成网络可以根据不同采样生成和原始数据一个类别的图片,至于实
: 际效果不好,只能说明现有优化技术不够
: 但VAE作为生成模型再烂,也比直接把随机数拿来用CNN梯度上升效果好,后者生成的根
: 本不是有意义的图片,只能算对抗图片

avatar
L*8
83
KL:
mean(X)->0
sigma(X)->1
如果找到一个非常nb的优化方法 直接把 mean(X)干成0.000 sigma(X)干成0.9999
X干脆就和Z没有关系了
这个问题就收敛到 Z=0+1*eplson
limit(P(Z|X))-> P(Z)=N(0,1)
为啥要吃饱了撑得这么 直接上随机数就行了

【在 m********5 的大作中提到】
: 嘛,首先声明我本人并不熟悉生产网络, 所以讲的很可能不对。尝试从统计学角度来讲
: 一讲。
: VAE实际是求解一个经典的贝页斯统计问题,假设我们有样本空间X符合分布P(X),如何
: 能够从一个样本子集获得一个近似分布P_{theta}(X),可以让我们从中取值生成新的样
: 本,很直观的办法就是直接推断含有隐变量的生产模型。
: 那么具体做法是 decoding Z->X (p(x|z)) Z是个高维隐变量.
: 而为了得到Z就是反过来,encoding X->Z (p(z|x))
: 因此问题变成如何得到encoder.由于Z是我们自己定义的一个变量,并且由于等量变换
: 的原因,我们可以固定其分布为p(z).比如选取N(0,1)
: 那么归根到底其实就是已知p(z)求一个后验分布p(z|x).

avatar
L*8
84
晚上做做实验 再来汇报

【在 L****8 的大作中提到】
: KL:
: mean(X)->0
: sigma(X)->1
: 如果找到一个非常nb的优化方法 直接把 mean(X)干成0.000 sigma(X)干成0.9999
: X干脆就和Z没有关系了
: 这个问题就收敛到 Z=0+1*eplson
: limit(P(Z|X))-> P(Z)=N(0,1)
: 为啥要吃饱了撑得这么 直接上随机数就行了

avatar
L*8
85
成功搞死VAE
用的是keras提供的例子
https://github.com/keras-team/keras/blob/master/examples/variational_
autoencoder.py
修改kl_loss
kl_loss = - 0.5 * K.sum(1 + z_log_var - K.square(z_mean) - K.exp(z_log_var),
axis=-1)
改为
kl_loss = K.sum(K.square(z_mean) + K.square(z_log_var-1), axis=-1)
修改一个数字
vae_loss = K.mean(xent_loss + 10*kl_loss, axis=-1)
然后
Mean(X), Sigma(X) 就非常趋近于0 和 1
然后 生成的 都是垃圾 哈哈

【在 L****8 的大作中提到】
: 晚上做做实验 再来汇报
avatar
x*u
86
你觉得loss函数是干什么用的?

),

【在 L****8 的大作中提到】
: 成功搞死VAE
: 用的是keras提供的例子
: https://github.com/keras-team/keras/blob/master/examples/variational_
: autoencoder.py
: 修改kl_loss
: kl_loss = - 0.5 * K.sum(1 + z_log_var - K.square(z_mean) - K.exp(z_log_var),
: axis=-1)
: 改为
: kl_loss = K.sum(K.square(z_mean) + K.square(z_log_var-1), axis=-1)
: 修改一个数字

avatar
L*8
87
你看过原文么?

【在 x****u 的大作中提到】
: 你觉得loss函数是干什么用的?
:
: ),

avatar
x*u
88
你讲讲loss为什么要算KL divergence?

【在 L****8 的大作中提到】
: 你看过原文么?
avatar
x*u
89
我觉得最近几十年的ai,最大弯路就是反复尝试把其他领域成功的各种模型搬运过来,
企图在对问题难度有基本认识前用数学手段解决问题
结果在现在自动特征的CNN对比下,发现精妙的数学模型只是极为理想的特殊情况,对
于真实世界里的一般性问题,现有数学工具就像石头斧子一样无力

【在 m********5 的大作中提到】
: 实际效果不好是数学上的难度,就是VI很难做
: 所以如果你选非常难的变分分布族,当然可以更好逼近输入,但是很难的分布族你又得
: 不到ELBO。
: 所以有人就想到用MCMC+VAE
: 另外就是用GAN来搞推断,这样就不用强假设
: 比如这个ALI:
: https://arxiv.org/abs/1606.00704

avatar
L*8
90
你死读书 衡量标准可以换成 概率函数的参数的距离

【在 x****u 的大作中提到】
: 你讲讲loss为什么要算KL divergence?
avatar
x*u
91
你可以随便提出理论,但没人收乱码的paper

【在 L****8 的大作中提到】
: 你死读书 衡量标准可以换成 概率函数的参数的距离
avatar
s*e
92
VAE不就是为了编码的样本隔开距离,而不要挤在一起吗?你们理解的好复杂。
avatar
L*8
93
yes, this is the key contribution of VAE
but using KL to let mean(X)->0 and sigma(X)->1 is a joke

【在 s******e 的大作中提到】
: VAE不就是为了编码的样本隔开距离,而不要挤在一起吗?你们理解的好复杂。
avatar
L*8
94
you mind is limited by Japanese culture

【在 x****u 的大作中提到】
: 你可以随便提出理论,但没人收乱码的paper
avatar
x*u
95
KL当然是joke,但是比噪声价值略高

【在 L****8 的大作中提到】
: yes, this is the key contribution of VAE
: but using KL to let mean(X)->0 and sigma(X)->1 is a joke

avatar
s*e
96
为什么错呢,正确的方法是什么?

【在 L****8 的大作中提到】
: yes, this is the key contribution of VAE
: but using KL to let mean(X)->0 and sigma(X)->1 is a joke

avatar
b*g
97
Auto Encoder 是用来把一个object 比如照片,text 压缩成一个vector.
我们希望这个vector 是有semantics的,比如两张老虎的照片压缩出的vector 应该是
相似的。
为了实现这个目的:
VAE 的训练目标是给vector 加微扰后, 产生的图片是不变的。
GAN 用的是另一种思路,直接训练一个classifier,判断两张semantically 是否相同。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。