下面我想谈一谈我们观察到的,生成式AI当前的发展趋势。第一个趋势,生成式AI的成本。我们这里举了一个例子,单就网络搜索为例,使用生成式AI的新技术跟传统的办法相比,每次搜索的成本提升10倍。考虑到还有各种各样的生成式AI应用正在涌现,以及全球数十亿的用户,显而易见,云经济将难以支撑生成式AI的规模化发展。第二个趋势,我前面也提到,现在数据的模态非常多,有文本、图像,音乐、语音等等,基础模型正在向多模态扩展,也就是说用户可以随意输入任意模态的数据,可以得到与之对应的任意模态的输出数据,也就是所谓的“X to X”。第三个趋势,我们能看到现在的基础模型变得越来越强大,但同时垂直领域模型的参数量变得越来越小,比如说GPT-3总的参数量在1750亿,但是Meta发布的Llama,包括国内的百川等模型,他们的参数量要小很多,可能只有70亿或者130亿。跟大参数量基础模型相比,这些相对较小参数量的大模型在某些垂直领域,性能依然十分强大,这也是为什么我们认为在未来,我们非常有机会将这些模型在终端侧部署,让更广泛大众能够享受到生成式AI给我们的生活、工作、娱乐带来的各种变革。如果我们仔细看一下不同的这些生成式AI的用例,包括文字生成图像或对话、NLP(自然语言处理)、编程、推理甚至包括图像、视频理解等等,所有支撑这些AI用例的大模型,它的参数量在10亿-150亿之间,这也是为什么我们认为在终端侧完全有可能让这些模型跑起来。当前我们可以支持10亿包括15亿参数的大模型在骁龙平台支持的终端侧运行。未来几个月我们也非常有希望能看到,超过100亿参数的大模型能够完整地在骁龙平台上跑起来。我们在终端侧通过不断提升大模型支持的参数阈值,让更多云端的生成式AI用例向边缘侧迁移。像手机这样的终端,它有着相机、麦克风、传感器、蓝牙、Wi-Fi、调制解调器等等能够提供感知信息的模块,而这些感知信息可以作为生成式AI输入提示,让终端可以提供更个性化的服务,而不需要通过任何网络连接。但同时人们可能担心,所有的个性化隐私数据当作生成式AI的输入,会不会有隐私安全泄露的问题?针对这方面的担心,我们认为一个比较好的解决方案,是让整个模型完全闭环跑在终端侧,让所有感知信息、隐私数据全部保留在终端侧,没有任何数据可以上云。 03.高通AI引擎成硬件杀手锏多项黑科技实现能效翻倍
前面讲的大多数跟硬件相关,在软件方面我们推出了高通AI软件栈(Qualcomm AI Stack),这是一个跨平台、跨终端、跨OS的统一软件栈,它贯彻了我们的每一条产品线,包括手机,汽车、PC,还有各种IoT设备、机器人等。这张图就是我们高通AI软件栈的整体框架。从上往下看,最上面是我们的框架层,我们支持目前主流的框架,包括TensorFlow、PyTorch、ONNX、Keras等等。再往下是Runtimes层,高通有自己的Runtimes,叫高通神经网络处理SDK,我们的合作伙伴或者开发者可以直接调用我们的Runtimes。当然,我们也支持开源的Runtimes,包括像ONNX、Direct ML、TF Lite等等。我们还有更底层的模块去支持第三方的Runtimes,叫高通AI引擎Direct。第三方Runtimes可以调用高通AI引擎Direct的接口,充分利用高通AI引擎的AI硬件加速单元来做推理加速。再往下就是开发者库和服务层,我们提供丰富的加速库给到开发者去做调用。同时,我们还提供编译器,让开发者在做模型转化时对高通底层的硬件更友好。同时我们的编译器也可以支持用户通过我们给定的引导去写自己定义的算子。除了编译器之外,我们还提供比较丰富强大的分析器和调试器。开发者在做推理部署的时候会发现,很多时候推理性能或者精度不如人意,我们的工具可以告诉开发者整个推理性能在哪里;网络结构、推理结构对高通硬件是否友好;或者是哪一层引起的精度问题,是因为量化位宽不够,还是本身的算子在高通HTP实现的效率不够好等等。再往下就是我们的系统层。系统层提供了丰富的系统接口,也提供了各种各样底层的Kernel驱动器。当然,我们还提供了一个仿真支持。如果开发者没有拿到高通的平台或者开发板,但又想知道整体算法在骁龙平台上部署的表现情况或者精度怎么样,可以用我们的仿真支持,我们有一个模拟器会给到大家。再往下就是OS层,高通的产品线非常丰富,OS层支持安卓手机、平板、PC的Windows系统,还有各种IoT设备采用的Linux或者是CentOS等等,还有我们的QNX。我们把所有的OS都集成在高通AI软件栈里面,能够支持高通所有的产品形态。除此之外,我们还有高通AI模型增效工具包(AIMET),AIMET最主要有两个功能,一个是帮助大家做量化,我们支持PTQ(量化感知训练)和QAT(训练后量化);另外是模型压缩。总结一下,高通AI软件栈是一个跨平台、跨终端、跨OS的统一软件栈。高通AI软件栈旨在帮助合作伙伴及开发者在骁龙平台上更高效地完成软件部署,提高它的扩展性,也就是所谓的一次开发、多次部署。以上就是我今天演讲的全部内容,谢谢大家!以上是万卫星演讲内容的完整整理。