avatar
guvest,问你个问题# Programming - 葵花宝典
z*j
1
可以帮爸妈预约吗?
另外可以在国外打电话约么?
谢谢
avatar
p*s
2
金庸,这个在文学史上谜一般的男人,在自己的武侠世界里塑造了无数个广为人知的侠者形象 ,不羁世俗的,爱憎分明的杨过,随心随性,无所羁绊,而又忠勇仁厚的令狐冲,一生背负,自小孤苦而又奋发图强,功成名就而又随性的放手的张无忌,金庸笔下的每一个人都有血有肉,堪称绝世。
而在金庸先生心中,最完美的侠者到底是谁呢?那就非我们《射雕英雄传》中的郭靖先生莫属,郭靖忠厚老实,用一生阐述了侠字,给我们讲述了“侠之大者为国为民”
的真意。
郭靖融合了“九阴真经”“降龙十八掌”“左右互搏术”三大盖世武功于一体,翩然翱翔于武林,被世人尊称为天下第一侠士。黑白两道对对其俯首称臣,号令武林群雄守护着南宋的襄阳城的边界前线,由五绝之一的北侠之称。
郭靖身性刚直,为人单纯,勤奋爱国,有情有义,具有金庸笔下一切侠着都有的模范精神,这时金庸先生心中最完美的侠者,也符合当代对能者侠者的要求,大丈夫当以天下为己任,为祖国贡献自己能贡献的力量,这也是金庸先生的一生。
avatar
w*r
3
如果输入信号(以图像为例)有很多零,但零的位置是随机的。CNN的芯片实现可以利
用这个特征,显著减少计算量吗?
avatar
x*0
4
yes
avatar
p*a
5
过境这种煞笔没法相处
生活里都是托托的接盘侠,当个一般朋友没事抓民夫挺好
找朋友,还得令狐冲,韦小宝这种,最正直不能超过胡费
avatar
g*t
6
不知道。假如这问题等价于

在输入中随机插入0,达到同等
效果的情况下,能否减少训练时间。我猜答案是否定的。
因为信息损失了。
avatar
w*t
7
可以。
可以。

【在 z****j 的大作中提到】
: 可以帮爸妈预约吗?
: 另外可以在国外打电话约么?
: 谢谢

avatar
a*r
8
金庸在倚天最后说了,郭靖杨过张无忌 没有一个是完美的
avatar
w*g
9
sparse blas. CPU做因为cache的问题讨不了太多好。
或许可以通过数学方式把几层sparse合成一层优化。
按风水轮流转的原理,这方面将来肯定要突破的。
不然没法做symbolic inference。

【在 g****t 的大作中提到】
: 不知道。假如这问题等价于
: :
: 在输入中随机插入0,达到同等
: 效果的情况下,能否减少训练时间。我猜答案是否定的。
: 因为信息损失了。

avatar
a*a
10
老金自己说最完美的是萧峰

侠者形象 ,不羁世俗的,爱憎分明的杨过,随心随性,无所羁绊,而又忠勇仁厚的令狐
冲,一生背负,自小孤苦而又奋发图强,功成名就而又随性的放手的张无忌,金庸笔下
的每一个人都有血有肉,堪称绝世。
先生莫属,郭靖忠厚老实,用一生阐述了侠字,给我们讲述了“侠之大者为国为民”
翱翔于武林,被世人尊称为天下第一侠士。黑白两道对对其俯首称臣,号令武林群雄守
护着南宋的襄阳城的边界前线,由五绝之一的北侠之称。
精神,这时金庸先生心中最完美的侠者,也符合当代对能者侠者的要求,大丈夫当以天
下为己任,为祖国贡献自己能贡献的力量,这也是金庸先生的一生。

【在 p*******s 的大作中提到】
: 金庸,这个在文学史上谜一般的男人,在自己的武侠世界里塑造了无数个广为人知的侠者形象 ,不羁世俗的,爱憎分明的杨过,随心随性,无所羁绊,而又忠勇仁厚的令狐冲,一生背负,自小孤苦而又奋发图强,功成名就而又随性的放手的张无忌,金庸笔下的每一个人都有血有肉,堪称绝世。
: 而在金庸先生心中,最完美的侠者到底是谁呢?那就非我们《射雕英雄传》中的郭靖先生莫属,郭靖忠厚老实,用一生阐述了侠字,给我们讲述了“侠之大者为国为民”
: 的真意。
: 郭靖融合了“九阴真经”“降龙十八掌”“左右互搏术”三大盖世武功于一体,翩然翱翔于武林,被世人尊称为天下第一侠士。黑白两道对对其俯首称臣,号令武林群雄守护着南宋的襄阳城的边界前线,由五绝之一的北侠之称。
: 郭靖身性刚直,为人单纯,勤奋爱国,有情有义,具有金庸笔下一切侠着都有的模范精神,这时金庸先生心中最完美的侠者,也符合当代对能者侠者的要求,大丈夫当以天下为己任,为祖国贡献自己能贡献的力量,这也是金庸先生的一生。

avatar
w*r
11
不确定我是否表述清楚了。我们可以认为一个二维稀疏矩阵,当做图像送入CNN,与非
稀疏矩阵比,在芯片上能否做优化?
一个简单的想法是,在做卷积时,如果一旦乘法的一个输入是0,输出直接赋值为0,不
需要常规的乘法器了
CPU/GPU上估计讨不到便宜,我问的是如果是ASIC,有没有实现手段可以省下这部分运算?


: 不知道。假如这问题等价于

: :

: 在输入中随机插入0,达到同等

: 效果的情况下,能否减少训练时间。我猜答案是否定的。

: 因为信息损失了。



【在 g****t 的大作中提到】
: 不知道。假如这问题等价于
: :
: 在输入中随机插入0,达到同等
: 效果的情况下,能否减少训练时间。我猜答案是否定的。
: 因为信息损失了。

avatar
w*g
12
如果对sparsity做某种假设,比如一个3*3的window最多一个输入非零(算上channel,其
实一个不算少),那么conv指令的电路就能简化。训练的时候对应做drop out就行。这
个省了8次乘法外加8次加法,快十倍了。不过对底层网络输出稠密时就不起作用了。这
个软件模拟很容易验证有效性。
搞一个这种巧妙的计算单元,软件验证有效性后申请专利,估计是比较好的赚钱方法了
吧。
avatar
g*t
13
他问的是芯片问题。这种问题网上是不宜讨论的。
另外不管什么技术,离赚钱都挺远的。我刚和一个你们
北大做图像的哥们喝了两杯。他说之前拿下来海康威
视的芯片生意。然后就被整残废了。公司都没法呆了。
他说美国白人觉得你们这些老中都是讨饭的。
当奴隶是应该的,拿走你的credit也是应该的。
所以他现在只和欧洲人合作。欧洲人在美国的公司
混饭吃比较靠谱。本身都是移民。


: 如果对sparsity做某种假设,比如一个3*3的window最多一个输入非零(算上
channel,其

: 实一个不算少),那么conv指令的电路就能简化。训练的时候对应做drop
out就
行。这

: 个省了8次乘法外加8次加法,快十倍了。不过对底层网络输出稠密时就不
起作用
了。这

: 个软件模拟很容易验证有效性。

: 搞一个这种巧妙的计算单元,软件验证有效性后申请专利,估计是比较好
的赚钱
方法了

: 吧。



【在 w***g 的大作中提到】
: 如果对sparsity做某种假设,比如一个3*3的window最多一个输入非零(算上channel,其
: 实一个不算少),那么conv指令的电路就能简化。训练的时候对应做drop out就行。这
: 个省了8次乘法外加8次加法,快十倍了。不过对底层网络输出稠密时就不起作用了。这
: 个软件模拟很容易验证有效性。
: 搞一个这种巧妙的计算单元,软件验证有效性后申请专利,估计是比较好的赚钱方法了
: 吧。

avatar
g*t
14
如果纯矩阵计算速度。那wdong说的没问题。
或者手册上更细节的算法也有。你进一步
把矩阵拆行拆列,内存优化下。
这些都可以做。
但是同样都是训练数据集。
稀疏的和非稀疏的,哪个信息多?
这问题不好回答。
芯片问题网上不宜讨论。
算法属于纯数学,
可以讨论。
矩阵乘法芯片
现有的专利很多,例如:
https://www.google.com/patents/US20140108481
Www.google.com/patents/US20140108481


: 不确定我是否表述清楚了。我们可以认为一个二维稀疏矩阵,当做图像送
入CNN
,与非

: 稀疏矩阵比,在芯片上能否做优化?

: 一个简单的想法是,在做卷积时,如果一旦乘法的一个输入是0,输出直
接赋值
为0,不

: 需要常规的乘法器了

: CPU/GPU上估计讨不到便宜,我问的是如果是ASIC,有没有实现手段可以省
下这部
分运算?



【在 w*****r 的大作中提到】
: 不确定我是否表述清楚了。我们可以认为一个二维稀疏矩阵,当做图像送入CNN,与非
: 稀疏矩阵比,在芯片上能否做优化?
: 一个简单的想法是,在做卷积时,如果一旦乘法的一个输入是0,输出直接赋值为0,不
: 需要常规的乘法器了
: CPU/GPU上估计讨不到便宜,我问的是如果是ASIC,有没有实现手段可以省下这部分运算?
:
:
: 不知道。假如这问题等价于
:
: :
:
: 在输入中随机插入0,达到同等
:
: 效果的情况下,能否减少训练时间。我猜答案是否定的。

avatar
w*g
15
芯片里面主要也是算法,也需要读取内存。
无非就是用verilog写程序。现在好像都可以用C写了。
AWS上好像有FPGA instance可以用。
我感觉内存方面一个可能的创新就是完全抛开cache,
直接利用庞大的主机内存进行随机sparse操作。

【在 g****t 的大作中提到】
: 如果纯矩阵计算速度。那wdong说的没问题。
: 或者手册上更细节的算法也有。你进一步
: 把矩阵拆行拆列,内存优化下。
: 这些都可以做。
: 但是同样都是训练数据集。
: 稀疏的和非稀疏的,哪个信息多?
: 这问题不好回答。
: 芯片问题网上不宜讨论。
: 算法属于纯数学,
: 可以讨论。

avatar
g*t
16
原理多年没有什么大变化。但是现实设计的话。约束变化
会导致实际设计很多变化
一条spec做错就全死了。发热,耗电等等。内存主要是
会影响价格。每一条细节都需要大量的工作才能定下来。
之前高通一代CPU发热丢了三星的单子,
到今天还没收场。说不定要分拆并购都有可能。
他们那CPU的带头VP是个老印,以前把我所在公司一
个CPU组废了,打一枪换个地方几年前去了高通。


: 芯片里面主要也是算法,也需要读取内存。

: 无非就是用verilog写程序。现在好像都可以用C写了。

: AWS上好像有FPGA instance可以用。

: 我感觉内存方面一个可能的创新就是完全抛开cache,

: 直接利用庞大的主机内存进行随机sparse操作。



【在 w***g 的大作中提到】
: 芯片里面主要也是算法,也需要读取内存。
: 无非就是用verilog写程序。现在好像都可以用C写了。
: AWS上好像有FPGA instance可以用。
: 我感觉内存方面一个可能的创新就是完全抛开cache,
: 直接利用庞大的主机内存进行随机sparse操作。

avatar
w*r
17
你这话说得会让硅工吐血的。。。
虽然芯片设计起初跟软件一样,也是编程,当它的toolchain要比软件长很多,不像写
出脚本或是再用gcc编译一下源码就能干活了。而且描述硬件逻辑和描述软件逻辑也不
太一样。
深度学习如果真成了未来的方向(其实这个我还不太确定),做到极致,我感觉必须要
摆脱常规计算机体系结构的束缚,作为系统中的一个特殊“模块“存在。

【在 w***g 的大作中提到】
: 芯片里面主要也是算法,也需要读取内存。
: 无非就是用verilog写程序。现在好像都可以用C写了。
: AWS上好像有FPGA instance可以用。
: 我感觉内存方面一个可能的创新就是完全抛开cache,
: 直接利用庞大的主机内存进行随机sparse操作。

avatar
g*t
18
数据---->算法--->软件--->硬件
第一层还没收敛。感觉硬件DL收敛到统一的结构还早。另外也许这条路永远走不完。只能
很小一部分出硬件。例如特殊的部分问题的ML计算协处理器。
因为Web browser 也出统一的硬件。(Steve jobs倒是
有这个眼光。当初他废除flash 那封信,thoughts on flash
有一条就是说H.264 )


: 你这话说得会让硅工吐血的。。。

: 虽然芯片设计起初跟软件一样,也是编程,当它的toolchain要比软件长
很多,
不像写

: 出脚本或是再用gcc编译一下源码就能干活了。而且描述硬件逻辑和描述
软件逻
辑也不

: 太一样。

: 深度学习如果真成了未来的方向(其实这个我还不太确定),做到极致,
我感觉
必须要

: 摆脱常规计算机体系结构的束缚,作为系统中的一个特殊“模块&
ldquo;存在。



【在 w*****r 的大作中提到】
: 你这话说得会让硅工吐血的。。。
: 虽然芯片设计起初跟软件一样,也是编程,当它的toolchain要比软件长很多,不像写
: 出脚本或是再用gcc编译一下源码就能干活了。而且描述硬件逻辑和描述软件逻辑也不
: 太一样。
: 深度学习如果真成了未来的方向(其实这个我还不太确定),做到极致,我感觉必须要
: 摆脱常规计算机体系结构的束缚,作为系统中的一个特殊“模块“存在。

avatar
w*g
19
这个我同意。现在出硬件的,很可能算法一改全军覆没。
毕竟现在的CNN基本还是80年代的算法,而钱又已经砸下去这么多了,
可以期望一点突破了。

只能

【在 g****t 的大作中提到】
: 数据---->算法--->软件--->硬件
: 第一层还没收敛。感觉硬件DL收敛到统一的结构还早。另外也许这条路永远走不完。只能
: 很小一部分出硬件。例如特殊的部分问题的ML计算协处理器。
: 因为Web browser 也出统一的硬件。(Steve jobs倒是
: 有这个眼光。当初他废除flash 那封信,thoughts on flash
: 有一条就是说H.264 )
:
:
: 你这话说得会让硅工吐血的。。。
:
: 虽然芯片设计起初跟软件一样,也是编程,当它的toolchain要比软件长
: 很多,

avatar
g*t
20
狭窄的小领域,可能具备条件可以上硬件。例如人脸识别芯片。
但是和cloud service要竞争。amzon出了recognization service了。

【在 w***g 的大作中提到】
: 这个我同意。现在出硬件的,很可能算法一改全军覆没。
: 毕竟现在的CNN基本还是80年代的算法,而钱又已经砸下去这么多了,
: 可以期望一点突破了。
:
: 只能

avatar
s*g
21
在compiler层面实现是不是就足够了
http://tensor-compiler.org/publications.html

【在 w*****r 的大作中提到】
: 如果输入信号(以图像为例)有很多零,但零的位置是随机的。CNN的芯片实现可以利
: 用这个特征,显著减少计算量吗?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。