懂deepmind得说说 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

懂deepmind得说说

懂deepmind得说说# Programming - 葵花宝典

b*r2016-03-09 08:03

1 楼

今年已经拿到了part-time的H1B名额，向转成full-time，但公司给的工资还是不够，
但领导同意作假，这样风险大不？总觉得心理不舒服，sigh!谢谢大家建议

M*n2016-03-09 08:03

2 楼

照片是最近照的。1000被拒。1000的照片2000还能再用吗？

z*82016-03-09 08:03

3 楼

【以下文字转载自 Texas 讨论区】
发信人: zz1188 (好利农场), 信区: Texas
标题: 鸡窝
发信站: BBS 未名空间站 (Wed Aug 15 14:27:13 2012, 美东)
天太热了，也是鸡窝通风不好。没办法下面必须挡的严实点儿，要不小动物会威胁它们
的命。
5只鸡，一只公鸡，它有四个老婆。只有一只在下蛋，其它三只是后来的，也许还不到
生育年龄。

w*r2016-03-09 08:03

4 楼

【以下文字转载自 pets 讨论区】
发信人: kenchendz (无名鼠), 信区: pets
标题: 看完这个后我超佩服板上的猫奴们
发信站: BBS 未名空间站 (Fri Apr 13 15:14:34 2012, 美东)
不说话

b*i2016-03-09 08:03

5 楼

这个设计，用FPGA，或者ASIC，会不会更快更省电？就像bitcoin 一样？

l*32016-03-09 08:03

6 楼

心里当然不舒服了，对我们学生来说。
不过那些政治庇护的什么都是假的，拿绿卡倒拿的爽。

i*s2016-03-09 08:03

7 楼

如果间隔很近，半年之内，干嘛不用？

T*42016-03-09 08:03

8 楼

大农场主来了
鸡窝快赶上俺家房子占地了

【在 z****8 的大作中提到】

: 【以下文字转载自 Texas 讨论区】
: 发信人: zz1188 (好利农场), 信区: Texas
: 标题: 鸡窝
: 发信站: BBS 未名空间站 (Wed Aug 15 14:27:13 2012, 美东)
: 天太热了，也是鸡窝通风不好。没办法下面必须挡的严实点儿，要不小动物会威胁它们
: 的命。
: 5只鸡，一只公鸡，它有四个老婆。只有一只在下蛋，其它三只是后来的，也许还不到
: 生育年龄。

D*62016-03-09 08:03

9 楼

哈哈，我看的是英文版的。是，狗就是这样子，做啥都欢天喜地的。猫也就是这样子，
没有主人，只有仆人，哈哈。

【在 w****r 的大作中提到】

: 【以下文字转载自 pets 讨论区】
: 发信人: kenchendz (无名鼠), 信区: pets
: 标题: 看完这个后我超佩服板上的猫奴们
: 发信站: BBS 未名空间站 (Fri Apr 13 15:14:34 2012, 美东)
: 不说话

l*m2016-03-09 08:03

10 楼

会省电，但很难比gpu快

【在 b***i 的大作中提到】

: 这个设计，用FPGA，或者ASIC，会不会更快更省电？就像bitcoin 一样？

b*r2016-03-09 08:03

11 楼

just want to know if it is risky.

【在 l**3 的大作中提到】

: 心里当然不舒服了，对我们学生来说。
: 不过那些政治庇护的什么都是假的，拿绿卡倒拿的爽。

j*e2016-03-09 08:03

12 楼

恩半年之内就可以，当时我用的两年前签证的照片，被叫出去重新照了一张，差点就
进不去领馆了。。。

a*h2016-03-09 08:03

13 楼

haha

【在 T*******4 的大作中提到】

: 大农场主来了
: 鸡窝快赶上俺家房子占地了

b*k2016-03-09 08:03

14 楼

哈哈

【在 w****r 的大作中提到】

S*82016-03-09 08:03

15 楼

FPGA 专门针对ML设计当然会比gpu快, 现在不少人已经在fpga上搞出类似gpu的东西了
,对码农来说也不需要vhdl,用xilinx的vivado就行了

【在 l*******m 的大作中提到】

: 会省电，但很难比gpu快

b*r2016-03-09 08:03

16 楼

any helpful suggestions?

【在 b*********r 的大作中提到】

: just want to know if it is risky.

q*g2016-03-09 08:03

17 楼

新照新气象。就是能用，我自己来说也不会用的。呵呵。

s*l2016-03-09 08:03

18 楼

鸡哪里来的？我也想养鸡不知道上哪里买鸡去

s*a2016-03-09 08:03

19 楼

还是狗好，我一直喜欢狗，
猫太奸诈了，越萌的越奸。

【在 D******6 的大作中提到】

: 哈哈，我看的是英文版的。是，狗就是这样子，做啥都欢天喜地的。猫也就是这样子，
: 没有主人，只有仆人，哈哈。

l*m2016-03-09 08:03

20 楼

还真没看到，fpga的clock 太慢，还有cache/RAM 的瓶颈和gpu是一样的

【在 S****8 的大作中提到】

: FPGA 专门针对ML设计当然会比gpu快, 现在不少人已经在fpga上搞出类似gpu的东西了
: ,对码农来说也不需要vhdl,用xilinx的vivado就行了

m*n2016-03-09 08:03

21 楼

风险当然有，移民局要是找上门来，你们就说死是Part-time的就行了

【在 b*********r 的大作中提到】

: just want to know if it is risky.

T*42016-03-09 08:03

22 楼

网上有卖的，不过要一起买很多只小鸡仔

【在 s*********l 的大作中提到】

: 鸡哪里来的？我也想养鸡不知道上哪里买鸡去

b*k2016-03-09 08:03

23 楼

瞎说
狗和猫，都是分品种性格大概会有不同，就算同一品种，也会因为各自经历性格不同。
再说了，就算猫奸，它再奸也不能把你怎么样啊。。。

【在 s*****a 的大作中提到】

: 还是狗好，我一直喜欢狗，
: 猫太奸诈了，越萌的越奸。

S*82016-03-09 08:03

24 楼

https://gigaom.com/2015/02/23/microsoft-is-building-fast-low-po
networks-with-fpgas/

【在 l*******m 的大作中提到】

: 还真没看到，fpga的clock 太慢，还有cache/RAM 的瓶颈和gpu是一样的

b*r2016-03-09 08:03

25 楼

thank you very much.

【在 m*****n 的大作中提到】

:
: 风险当然有，移民局要是找上门来，你们就说死是Part-time的就行了

z*82016-03-09 08:03

26 楼

如果你是在休斯敦我可以告诉你在哪里可以买到鸡

【在 s*********l 的大作中提到】

: 鸡哪里来的？我也想养鸡不知道上哪里买鸡去

s*a2016-03-09 08:03

27 楼

如果被怎么样了，是不是只能说明我笨啊？~_~

【在 b*********k 的大作中提到】

: 瞎说
: 狗和猫，都是分品种性格大概会有不同，就算同一品种，也会因为各自经历性格不同。
: 再说了，就算猫奸，它再奸也不能把你怎么样啊。。。

w*g2016-03-09 08:03

28 楼

我不懂底层工艺，假设用相当的工艺，我觉得FPGA能做到更高的集成度，
更省芯片面积更省电，或者在相同的面积上做到更大的数据规模。
一个可能的方向就是把一个卷积的一个窗口加上activation用一个硬件
单元实现。然后在内部就可以做各种龌龊的优化。这样应该能比用浮点
数指令一个乘法一个乘法做能快好几倍。
我其实特别期待Intel的带FPGA的CPU，不知道什么时候能出来。
FPGA的劣势：１.还是无法避免内存带宽瓶颈。
2. 编程序比GPU更底层，开发更慢。
3. 上层算法变动太快，不确定性太高。很可能一个算法优化直接导致
CPU性能急剧上升。
4. 价格下不来。

【在 b***i 的大作中提到】

: 这个设计，用FPGA，或者ASIC，会不会更快更省电？就像bitcoin 一样？

b*k2016-03-09 08:03

29 楼

zkss先，哈哈

【在 s*****a 的大作中提到】

: 如果被怎么样了，是不是只能说明我笨啊？~_~

S*82016-03-09 08:03

30 楼

对的，FPGA优点还是更flexible，针对特定的计算直接修改电路，比如GPU的SM里面
的special function units觉得多了就减掉几个不够用就增加几个，局部可以优化的
地方很多.
在memory方面FPGA更tricky，有人把部分中间步骤数据直接留在flip-flop里而不去读
写内存.
现在很多人在搞FPGA的HLS， Xilinx已经开始支持C++/OPENCL了，以后编FPGA越来越容
易了应该

【在 w***g 的大作中提到】

: 我不懂底层工艺，假设用相当的工艺，我觉得FPGA能做到更高的集成度，
: 更省芯片面积更省电，或者在相同的面积上做到更大的数据规模。
: 一个可能的方向就是把一个卷积的一个窗口加上activation用一个硬件
: 单元实现。然后在内部就可以做各种龌龊的优化。这样应该能比用浮点
: 数指令一个乘法一个乘法做能快好几倍。
: 我其实特别期待Intel的带FPGA的CPU，不知道什么时候能出来。
: FPGA的劣势：１.还是无法避免内存带宽瓶颈。
: 2. 编程序比GPU更底层，开发更慢。
: 3. 上层算法变动太快，不确定性太高。很可能一个算法优化直接导致
: CPU性能急剧上升。

s*a2016-03-09 08:03

31 楼

不行，我不能把猫拉我去踩坑这件事告诉你……

【在 b*********k 的大作中提到】

: zkss先，哈哈

w*g2016-03-09 08:03

32 楼

对，中间结果存内存，不管是在CPU里还是GPU里都是大开销。
还有就是精度。从本质上来说神经网络activation其实是可以
做成binary的，activate/non-activate。实际不行，因为
如果是binary的话就难以back-propagate error。但是应该
也不需要32位的精度。如果做成低精度浮点数可以剩下来
不少资源。现在nvidia已经支持16位浮点数了，也已经有人
用上了，但是加速还不是很快，主要是用来省内存。
我觉得原因是目前只是把fp32变成fp16，而没有针对神经
网络的特点有选择地使用。nvidia GPU内部的fp16计算应该
也无法比fp32计算快１倍。但是如果上FPGA的话就可以实现
加速。

【在 S****8 的大作中提到】

: 对的，FPGA优点还是更flexible，针对特定的计算直接修改电路，比如GPU的SM里面
: 的special function units觉得多了就减掉几个不够用就增加几个，局部可以优化的
: 地方很多.
: 在memory方面FPGA更tricky，有人把部分中间步骤数据直接留在flip-flop里而不去读
: 写内存.
: 现在很多人在搞FPGA的HLS， Xilinx已经开始支持C++/OPENCL了，以后编FPGA越来越容
: 易了应该

b*k2016-03-09 08:03

33 楼

细细

【在 s*****a 的大作中提到】

: 不行，我不能把猫拉我去踩坑这件事告诉你……

N*m2016-03-09 08:03

34 楼

good to know

【在 S****8 的大作中提到】

l*o2016-03-09 08:03

35 楼

我超喜欢看东东的贴。。。

【在 w****r 的大作中提到】

l*m2016-03-09 08:03

36 楼

标准的floating point 乘法内部都要先增加比特位，所以fp16比fp32快不了多少，当
然fixed point就另说了，这个一般码工是胜任不了的
binary weighs 似乎可行
http://arxiv.org/pdf/1511.00363v2.pdf

【在 w***g 的大作中提到】

: 对，中间结果存内存，不管是在CPU里还是GPU里都是大开销。
: 还有就是精度。从本质上来说神经网络activation其实是可以
: 做成binary的，activate/non-activate。实际不行，因为
: 如果是binary的话就难以back-propagate error。但是应该
: 也不需要32位的精度。如果做成低精度浮点数可以剩下来
: 不少资源。现在nvidia已经支持16位浮点数了，也已经有人
: 用上了，但是加速还不是很快，主要是用来省内存。
: 我觉得原因是目前只是把fp32变成fp16，而没有针对神经
: 网络的特点有选择地使用。nvidia GPU内部的fp16计算应该
: 也无法比fp32计算快１倍。但是如果上FPGA的话就可以实现

l*12016-03-09 08:03

37 楼

刚才突然想如果让我用一句话形容猫的话，那么肯定是
他喵的我谁也不鸟 //冷冷一眼
小猫还好，猫长大了就独，独得是爱理不理，理你是给你面子

【在 w****r 的大作中提到】

l*m2016-03-09 08:03

38 楼

这篇文章自己都承认FPGA慢
Nvidia’s Tesla K40 GPU can do between 500 and 824 images per second on one
popular benchmark dataset, the white paper claims, while Microsoft predicts
its preferred FPGA chip — the Altera Arria 10 — will be able to process
about 233 images per second on the same dataset.

【在 S****8 的大作中提到】

: https://gigaom.com/2015/02/23/microsoft-is-building-fast-low-po
: networks-with-fpgas/

d*a2016-03-09 08:03

39 楼

lol
太形象鸟~

【在 w****r 的大作中提到】

S*82016-03-09 08:03

40 楼

1. 我只是找个例子给你，你说你没看到
2. 你说慢的前提是你拿K40 跟 Altera Arria 10比，就算这样也没慢多夸张
3. 你应该比的是单位transistor或者单位价格或者单位功耗多少计算量

one
predicts

【在 l*******m 的大作中提到】

: 这篇文章自己都承认FPGA慢
: Nvidia’s Tesla K40 GPU can do between 500 and 824 images per second on one
: popular benchmark dataset, the white paper claims, while Microsoft predicts
: its preferred FPGA chip — the Altera Arria 10 — will be able to process
: about 233 images per second on the same dataset.