迈向普罗大众的生成式 AI:如何为技术爆发创造条件
生成式 AI、大语言模型(LLM)无疑是 AI 行业当下的最大热点。自 2023 年初以来,ChatGPT、Stable Diffusion 等生成式 AI 技术凭借惊人的输出表现,在行业领域以及大众层面都引发了大量关注与应用热潮。
2023 年 6 月 27 日 - 28 日,亚马逊云科技中国峰会在上海世博中心盛大召开。大会第一天,亚马逊云科技全球产品副总裁 Matt Wood 博士发表主题演讲,向与会者传达了亚马逊云科技对生成式 AI 技术的态度与愿景。Matt Wood 表示,生成式 AI 是整个技术行业的一项巨大突破,亚马逊云科技对此感到十分兴奋。为了让更多人更早从这一技术创新中受益,亚马逊云科技正在帮助企业、开发者乃至整个行业,利用亚马逊云科技积累的技术、资源和经验推动生成式 AI 技术向大众化发展。
生成式 AI 的基础是参数规模可达千亿级别的大型模型,基于大量文本、代码或图像数据集训练,需要数万甚至更多的 GPU,经过几千小时才能训练完成。大模型能够释放超越传统界限的创新,将人类推向未知的领域。用户可以使用大模型加速创意流程、加快总结排序过程,或创造全新的交互体验,乃至提升复杂决策的可靠性与效率等。
然而,虽然生成式 AI 技术拥有广阔的应用前景,但它在普及的路上也面临着重重阻碍。大模型训练所需的庞大硬件资源、时间、人力成本投入,对于大多数企业而言都是沉重的负担。企业在训练模型时需要收集海量数据,而如何应对这些数据的法律授权问题,如何保障数据的安全性也会让很多企业的开发团队头痛不已。现阶段大模型的输出质量仍然是一个问题,包括 ChatGPT 在内的公开服务都在实践中表现出了输出质量不稳定、回答过分自信、对领域知识了解不足等问题。
针对上述问题,亚马逊云科技在本次峰会上也提出了相应的解决方案。Matt Wood 博士在演讲中提到了亚马逊云科技涉足生成式 AI 领域研发的几项关键产品和服务:Amazon Bedrock、Amazon Titan 与 Amazon CodeWhisperer。这些产品与亚马逊云科技已有的 Amazon SageMaker、Amazon Aurora 等服务,以及亚马逊云科技自研的 Inferentia 和 Trainium 芯片结合,将为行业提供一条通向平民化的生成式 AI 普及路径。
Amazon Bedrock 是亚马逊云科技刚刚推出的全托管生成式 AI 服务,其允许用户通过 API 访问亚马逊云科技和第三方基础模型提供商的预训练基础模型。开发人员无需担忧底层基础架构,只需通过简单易用的 API,选择所需模型,就能输出合适的文本或图像内容。亚马逊云科技还提供了 Amazon Titian 模型库,让用户可以在安全、私有的环境下对模型进行优化和微调。最后,Amazon CodeWhisperer 工具则借助了生成式 AI 技术,帮助用户显著提升开发效率,快速获得生成式 AI 的收益,并降低大模型应用的门槛。
Matt Wood 提到,从云计算开始,亚马逊云科技就一直在推动创新技术的民主化进程。在生成式 AI 领域,亚马逊云科技认为大模型民主化的关键就在于使用门槛较低、种类丰富、较为低廉的开发和应用成本,易于为行业和领域需求定制模型,同时安全可靠、无需担忧法律和隐私问题。为此,Amazon Bedrock 与 Amazon Titan 提供了一系列有着各自专长的基础模型,用户可以轻松将数据输入模型,通过无服务器的 API 部署应用。Amazon Bedrock 支持私有数据定制化,为开发人员提供了安全的开发环境。
对于企业而言,Amazon Bedrock 为他们创造了一个非常合适的生成式 AI 起点和开发框架,他们可以将 Amazon Titan 模型库中的模型,快速调整为可以更好解决领域问题的行业模型,大幅降低了大模型的开发门槛。Amazon Bedrock 即用即付的费用模式,结合亚马逊云科技自研的高效能推理和训练芯片,则可以大幅降低大型模型训练前期的成本投入。Matt Wood 认为,这样的方式足够简便、经济实惠,可以同时适应大企业与中小创投企业的需求。
值得一提的是,Amazon Bedrock 还能大幅降低大模型输出自信满满但错误回答的概率,且输出内容都经过了云端认真审核,确保健康无害。亚马逊云科技在训练 Amazon Titan 模型时,使用的数据也都经过了授权或使用许可,符合相关法律要求,企业可以放心地使用这些模型,无需担心潜在的隐私与法律问题。
如今,已经有企业利用 Amazon Bedrock 开发了针对广告内容分发的行业模型,并取得了 50% 的成本节约、35% 的效率提升与 45% 的点击率提升。在可见的未来,会有大批行业企业意识到亚马逊云科技提供的生成式 AI 服务解决方案的优势,并通过这些方案享受到类似的收益。
在开发生成式 AI 基础框架服务的同时,亚马逊云科技也在关注如何利用生成式 AI 改善生产力,新推出的 Amazon CodeWhisperer 便是这样的工具。它可以为开发人员提供很好的帮助,用户通过自然语言指示系统生成他们所需的代码,大幅提升开发效率。Amazon CodeWhisperer 支持 15 种编程语言,未来还会加入更多选项。该工具能够从开发人员使用的源代码库中提取有用的资源来生成代码,从而更准确地把握需求。
在内部对比中,CodeWhisperer 带来了 57% 的开发时间节省和 27% 的代码质量提升,效果十分明显,已经有包括瑞士军刀在内的企业,开始使用 Amazon CodeWhisperer 来改进现有的软件开发流程。亚马逊云科技认为,Amazon CodeWhisperer 还能帮助用户进一步降低大模型技术应用的门槛,让他们以更快的速度、更高的质量和更安全的方式开发生成式 AI 应用,为技术民主化的进程提供助力。
Matt Wood 提到,生成式 AI 的本质是以前所未有的方式支持和处理数据。数据对于生成式 AI 而言是一切工作的起点,而亚马逊云科技对此的答案就是云原生的数据战略。如果说 Amazon CodeWhisperer 是生成式 AI 的前台应用,那么云原生的数据战略就是亚马逊云科技为企业提供的后台支撑。
首先,亚马逊云科技提供了全球领先的全类别云数据库服务,提供低时延、低成本等优势。例如,元宇宙企业 Gevos 就使用了亚马逊云科技的云数据库作为核心负载的托管平台,显著提升了游戏开发的生产力。与此同时,用户还可以使用 Amazon EMR、Amazon Aurora 的全新 ETL 服务等工具组合,获得广泛而深入的数据分析能力。最后,Amazon DataZone 这样的数据管理服务可以帮助企业搭建数据治理框架,进而形成自己的数据战略。
所有这些数据能力组合在一起,为亚马逊云科技的客户带来了可见的先发优势。当用户充分利用这些能力来结合诸如 Amazon SageMaker、Amazon Bedrock 等 AI 服务,就能够快速实现一些全新的应用,从现有的数据中挖掘出可观的价值。
在用户推动数据与 AI 战略的过程中,亚马逊云科技还为企业设置了足够的安全护栏,帮助开发团队在免于安全与法律问题的同时获得更高的自由度,进行更广泛的实验。通过这些实验的成果,开发人员就能够整合自身所处行业的专业知识,推出效果令人满意的行业 AI 应用。
本次亚马逊云科技中国峰会,标志着亚马逊云科技在生成式 AI 领域正式开始全面出击,向着这一技术全面普及的目标大踏步前进。Matt Wood 博士的演讲不仅全面回顾了亚马逊云科技的一系列创新产品和服务,也为企业如何利用这些服务搭建自己的生成式 AI 开发框架,并制定 AI 与数据战略提供了很好的建议。
Matt Wood 总结说,在整个行业中,亚马逊云科技实现了以最快、最低成本以及最简单易行的方式提供生成式 AI 模型。最近,亚马逊云科技还投资了一亿美元来进一步促进生成式 AI 领域的创新和进步,其中的一项重要举措就是建立一个新的生成式 AI 创新中心。这个创新中心集结了亚马逊云科技在机器学习方面的科学家,与此同时也会积极地同客户合作,帮助他们构想、设计和推出新的生成式 AI 产品、服务和流程。
Matt Wood 认为,随着越来越多的企业甚至个人经常使用这些生成式 AI 模型,它们的反馈与输出会越来越好。对于行业的未来,Matt Wood 博士也充满乐观:“我们正处于一项重大技术创新的发展早期和爆发前夜,我们所见的一切都只是起跑线,而非天花板。”
微信扫码关注该文公众号作者