中国大模型算力到底够不够?Scaling Law不是唯一增长曲线
摩尔定律的前提假设是,底层构建电路和芯片的时候一直采用 CMOS器件,就像用砖头盖楼或者搭积木,通过缩小晶体管尺寸来实现更高的集成度和更好的性能。而我的研究中有一部分是探索,除了基于这种传统的CMOS工艺去做领域的定制加速,还可以做什么?如果我把底层器件换掉,比如说不是用CMOS器件,而是用一种存算一体或者模拟域的计算,是不是也可以?
这是第三条线,在摩尔定律的通用计算曲线和专用芯片性能曲线之后的一条线:新型器件与新型系统的协同设计。这一技术路线具有极高的能效潜力,起步的时间点可能稍微晚一些,但它的上升曲线是非常陡峭的。现在大家的目光都放在怎么把参数量堆上去,以实现更好的智能表现。而我们觉得,拿芯片层的摩尔定律去类比,模型层一定也会发生能力发展趋缓的问题。
腾讯科技:摩尔定律发展了几十年,我们才去想第二曲线,现在已经到了大模型要找第二、第三曲线的时候了吗?
腾讯科技:这条路像有资源和技术优势的OpenAI,一定会继续走下去吧?
英伟达(NVIDIA)在2019年收购了一家名为Mellanox Technologies的公司,后者是一家专注于高性能网络互联解决方案的供应商。收购Mellanox后,英伟达将其技术整合到了自己的产品线中,并在此基础上继续发展。其中包括NVLink,这是一种高速点对点数据传输技术,允许多个GPU或其他处理器之间进行快速直接的通信。
戴国浩:成本是落地时极为重要的因素。一个好的商业闭环是能够形成快速迭代的,并且把落地部署的效率和成本做到极致。
再加上底层芯片层,每一层都有很多优化的空间。比如说在平台层可以做调度优化,算子层可以写更好的算子,芯片层可以去做专用的芯片,算法层可以去做量化压缩,应用层又可以去做高效的应用设计。市面上很多公司在做具体某一层的优化,我们的重点是打通来做每一层,我们在每一层大概都能做到10倍,最后乘在一起会是1万倍成本下降的效果。
供需错配,算力市场的长期痛点
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章