解锁生成式AI万亿规模市场，亚马逊云科技把AIGC门槛打下来了

科技

2023-06-30 05:06

新智元报道

编辑：编辑部

【新智元导读】生成式AI的变革狂潮中，企业能怎么赚钱？0元可用的代码神器，让Stable Diffusion推理成本直砍50%的工具……亚马逊云科技帮你把门槛打下来了！

ChatGPT一声惊雷，让全球见识到了生成式AI的威力。

当前，生成式AI进入一个爆发时刻，并在许多领域中展现出它的无限潜力。

OpenAI的ChatGPT iOS版，一周之内就突破了50万次下载。AI绘画工具Midjourney，凭借订阅付费模式，在一年内实现了约1亿美元的营收。

现在，基于AIGC的新应用依然层出不穷。Midjourney V5.2可以无限缩放画面，能直接制作镜头伸缩的视频；Figma官宣AI设计能力，创意、绘图、代码全部包含。

整个AI圈，仿佛瞬间都活了起来。

那么，在这轮生成式AI大爆发中，企业应当如何抓住机遇，顺应这一波时代的潮水，得到自己的独特红利？

这届亚马逊云科技中国峰会，给了我们答案。

0代码构建应用

AI大爆发中，许多企业都希望能顺势抓住红利，但无论是成本还是技术壁垒，大模型的门槛之高，都会把许多企业拒之门外。

亚马逊云科技的Amazon Bedrock，就把大模型的门槛打了下来。

在峰会现场，亚马逊云科技全球产品副总裁Matt Wood为我们展示了一个令人印象深刻的无代码产品demo。

Matt表示：「从未有过如此简单、低成本的方式让每个人可以借助机器学习进行代码构建。」

现在，根据下面这个个人用户的每月开销表格，我们需要开发一个理财应用程序。

从十几个数字中能看出什么呢？用Amazon Bedrock向大模型提问，你会得到惊喜。

首先，在眨眼间，Amazon Bedrock就会得出对表中的信息做总结，根本不用写代码。

在这个收入汇总表中，它概括出了收入和主要支出，并列举了出了主要支出的摘要，还总结出了每月的高频消费。

我们可以问Amazon Bedrock：这个表有哪些异常？

它会告诉你：从收支表可以看出，整个月的开支分配似乎相当不平衡，没有与储蓄或投资相关的交易，整个月只有两笔收入存款，一些支出似乎被过于低估了……总之，问题重重。

除此之外，我们还可以构建一个个性化的财务仪表板。

我们可以问Amazon Bedrock，每年的燃气开销是多少？它会根据数据做出预估：大概占总支出的10%或15%。

要得出这些结论，一行代码都不用写，只需要用自然语言给出提示词即可。

而Amazon Bedrock也提供了一个聊天框，这样可以快速向用户展示聊天界面。

最后，通过这个模型，银行就可以向用户提供各种理财建议，让他们做出改进了。

生成式AI的变革

DALL-E 2、Stable Diffusion、ChatGPT等AI工具的相继诞生成功引爆了AIGC时代。

由此，2022年也被称为「生成式AI元年」。

近二十年来，我们见证了从「机器学习」算法到「深度学习」，再到「基础模型」的发展。

随着数据量大规模膨胀，可扩展的算力，再加上机器学习不断创新，生成式AI走向了一个转折点。

AI能够生成内容，是因为基于生成式对抗网络（GAN）、预训练模型等技术，根据已有的数据寻找规律，并通过泛化能力生成一切。

那么，生成式AI具体经历了怎样一个演变，那还得从机器学习说起。

顾名思义，机器学习就是让计算机对数据进行学习，从中找出规律，并建立模型。

根据监督学习方法的差异，机器学习领域出现了两种类型：判别式模型和生成式模型。

前者是对条件概率进行建模，对给定输入进行分类或标记。后者则对联合概率进行建模，根据已有数据生成新的内容。

直到2014年，Ian Goodfellow等人提出的GAN，传统机器学习模型逐渐转向深度神经网络。

通过利用多层人工神经网络进行学习和训练模型，深度学习很快展现出强大的能力。就连2016年打败人类围棋高手李世石的AlphaGo，其背后原理也是基于深度学习训练的。

与此同时，生成式机器学习模型也被广泛应用于文本、图像、语音等智能生成，由此，人们将其成为「生成式AI」。

随着时间推移，可以看到，深度学习是机器学习的一个分支，而生成式AI是深度学习的分支。

因此，生成式AI并非是全新产物，而是一点点演进而来，因为我们很容易从此前爆火的AI模型中发现它的原型。

就比如，2017年，一位国外小哥Zack Thoutt等不及马丁新作，便用AI——分支循环神经网络（RNN）续写了「冰与火之歌」。

那么，为什么生成式AI在如今才迎来爆发呢？

首先，从模型的规模来讲，更加适用于生成式AI的「大模型」，逐渐取代了「小模型」。

人们发现，随着参数量的不断扩增，更大的基础模型能够取得更好的效果，执行越来越多的复杂任务。

因为当模型达到一定规模时，就会出现一种不可预测的现象，即「涌现」能力。

其次，最值得一提的是，2017年提出的王者架构Transformer，让大模型训练变得更加容易。

比起以往RNN等架构，Transformer能够实现很好的并行性，大幅缩短了训练时间。基于Transformer构建的GPT-4、DELL-E等都是最好的例证。

第三个原因便是算力飞升，CPU/GPU硬件不断突破、充足供应，为大模型的训练和推理提供了巨大算力支撑。

还有最后重要的一点原因是，数据量极大丰富。

一方面GAN的提出，直接突破了以往传统机器学习数据局限，使得大规模无监督学习成为可能。

另一方面，互联网的发展，提供了各种图片、文字、视频等丰富的训练材料。

丰富的数据，更好的模型，以及更强的算力，正是在诸多因素共同作用下，才使得生成式AI在当下迎来大爆发。

生成式AI的火热不仅意味着商业的可能性，更代表着AI进入一个新时代。

在亚马逊云科技中国峰会上，亚马逊云科技全球产品副总裁Matt Wood提到了，生成式AI将最先在四个方面发生深刻的变革。

它们分别是：创意输出、功能增强、交互式体验、决策支持。

创意输出是指通过生成式AI做一些有创造力的工作，比如写作、编码、视频、设计等。

办公软件能够帮你去做总结、分析各种个性化内容的实现，还有进行相关内容搜索，都是功能增强的体现。

另外，交互式体验是通过与包括ChatGPT在内的聊天机器人，进行Q&A互动。最后的决策支持，比如智能数据报表AI助理。

现在，生成式AI的大爆发就在眼前，而且还是多点爆破，许多企业，都希望能抓住机遇。

四大挑战，一站式解决

然而在现实中，企业想要利用生成式AI，还面临着重重困难。

比如，不是每个人都能获得一流的模型、安全和私有的环境，以及低成本和低延迟的基础设施。

那么问题来说，我们如何最大化生成式AI在创意输出、功能增强、交互式体验、决策支持等方面的潜力呢？

首先最重要的，当然就是有性能最强大的一流基础模型，用来构建出色的生成式AI应用。

有了模型之后，就需要一个安全私密的环境，用私有数据来定制化这些模型。

第三，当然就是需要专门构建的机器学习基础设施，以实现低成本的推理。

最后，就需要借助专业的代码生成工具，消除繁重的工作、大幅提升效率。

而亚马逊云科技，正在通过种种服务产品，弥补着这一差距，争取让生成式AI的好处，能够惠及所有企业。

1. 获得一流的模型

在当今的背景之下，大多数公司都有使用大语言模型的需要。便捷的访问，靠谱的模型，都渐渐成为刚需。

然而，真正好的大语言模型，动辄需要数十亿美元的训练，还要经历数年的时间。

大多数企业无法自己实现这个过程，他们希望的是能够从一个庞大的基础模型开始改进，然后根据自己的需求进行定制。

但包括ChatGPT和Bing AI在内的聊天机器人，都无法避免「幻觉」的问题，会输出看起来令人信服、实则是胡说八道的答案。

如何获得一流的模型呢？亚马逊云科技的Amazon Bedrock，就提供了非常好的选择。

首先，Amazon Bedrock最重要的优势就在于，用户可以将其与亚马逊云科技的其他部分集成。这意味着，企业可以更轻松地访问存储在Amazon S3对象存储服务中的数据，并从亚马逊云科技的访问控制和治理策略中受益。

其次，通过Amazon Bedrock，用户可以轻松访问AI21的Jurassic-2、Anthropic的Claude、Stability AI的Stable Diffusion，以及亚马逊云科技自己的Amazon Titan模型。

在这些模型中，最被大家熟知的应该就是来自Anthropic的Claude了，而它的效果和性能也是一众模型中最接近GPT-4的那个。

当然，除了第三方的SOTA模型外，Amazon Bedrock还支持基于亚马逊云科技在机器学习领域20多年经验的——Amazon Titan基础模型。

Amazon Titan包含了两个大语言模型，一个是用于生成文本的Titan Text，一个是让网络搜索个性化的Titan Embedding。

Titan Text针对的是总结、文本生成、分类、开放式问答和信息提取等任务。

用户可以通过自己的数据定制Amazon Titan模型。并且，亚马逊云科技非常保护用户数据隐私，不会将用户数据拿来再训练Amazon Titan模型。

而且，不同于其他大模型时常会出现的「幻觉」，Amazon Titan在训练时非常关注精度，就是为了保证产生的响应一定是高质量的。

2. 安全和私有环境

虽然使用大模型是刚需，但所有客户都不希望自己的数据被拿去训练模型。

此前，三星就被曝出芯片机密代码遭ChatGPT泄露，新程序的源代码、内部会议记录等机密数据都发生了外泄。

另有新闻曝出，谷歌就警告员工，在使用Bard时不要泄露机密信息，或用其生成代码。

美国国会众议院也在近日明确，要求职员仅可使用付费版ChatGPT，不能使用包括免费版ChatGPT在内的其它AI模型，就是为了防止泄密。

在一项调查中亚马逊云科技也发现，由于数据非常宝贵，因此客户的一个关键需求就是，在模型训练的过程中时刻保持数据的安全和隐私。

而Amazon Bedrock的Amazon SageMaker，正提供了这样一个安全的模型训练环境，可以让客户把预训练模型通过在自己的数据上微调，变成一个定制化的模型。

亚马逊云科技的副总裁表示，客户可以使用自己的数据定制Amazon Titan模型，但这些数据永远不会用于训练Amazon Titan模型，可以保证其他客户（包括竞争对手），都不会从这些数据中获益。

3. 低成本和低延迟

而在这些基础上，就需要有相应的工具实现更快的开发。

推理芯片和训练芯片，都是为了帮助客户去更好地实现算力上的高性价比。

现在大家面临的情况是，GPU的成本都非常高。Sam Altman曾透露，OpenAI创建GPT-4的成本，已经超过了1亿美元。

而OpenAI的内部会议上也曝出：OpenAI目前严重受限于GPU，训练大模型动辄需要千万美元，何况每天还有ChatGPT的上亿用户在消耗着海量的算力资源。

大模型时代，得算力者得天下。

对此，亚马逊云科技推出的训练和推理芯片Amazon Inferentia、Amazon Inferentia2和Amazon Trainium，就加速了AI工具的开发过程。

Amazon Trainium是亚马逊云科技专门为超过1000亿参数模型的深度学习训练打造的第二代机器学习加速器。

每个Amazon Elastic Compute Cloud（EC2）Trn1 实例可部署多达16个Trainium加速器，为云中的深度学习（DL）训练提供高性能、低成本的解决方案。

Amazon Inferentia是亚马逊云科技设计的一款机器学习推理加速器，可在云中提供高性能和低成本的机器学习推理。

与第一代Amazon Inferentia相比，Amazon Inferentia2加速器在性能和功能方面实现了重大飞跃，吞吐量提高了4倍，延迟低至前者的1/10。

在模型训练过程中，训练效率和性价比是最重要的指标。

基于Amazon Trainium的Trn1的实例表现，单节点的吞吐量可以提升1.2倍，而多节点吞吐量可以提升1.5倍。从成本考虑，单节点降低1.8倍，集群更是降低了2.3倍。

而推理往往需要考虑吞吐量和延迟。更高的吞吐量，当然能带来更高的性价比。然而这两者，对于开发者来说，往往不可兼得。

Amazon Inferentia2的实例测试表明，其吞吐量可以提升3倍，延迟降低8.1倍，而成本只是1/4。

那么Amazon Inferentia2在大语言模型性能表现如何？

用业界常用的开源模型OPT-30B做测试，Amazon Inferentia2吞吐量增加了65%，推理成本降低52%，基本上是一半的成本。

跑视觉模型Stable Diffusion时，Amazon Inferentia2可以实现50%更低的成本。

亚马逊云科技的训练和推理芯片，能够帮助客户在算力上实现高性价比。

4. 专业的代码生成

在有了便宜高效的算力之后，另一个让企业开发者头大的问题，就是代码了。

而随着各种Copilot，以及类ChatGPT大语言模型的发布，越来越多的开发者也开始把AI编码辅助工具加入自己的工作流。

前段时间，GiHub就展开了一项关于「AI对开发者体验影响」的调查。

从结果来看，几乎所有（92%）的开发人员都会在工作中使用AI编码工具，大多数（67%）开发者在工作环境和个人时间中都使用过，不过还有6%的开发人员表示他们只在工作之外使用编码辅助工具。

其中，更是有超过70%的开发者表示，AI编码工具可以满足现有的性能标准、提高代码质量、更快地输出代码，而且生产级事故也会更少。

无独有偶，亚马逊云科技也曾进行过一个生产力挑战。

结果显示，使用自家Amazon CodeWhisperer的参与者在任务的完成率上，要比不使用的高了27%，而平均速度更是快了57%。

然而，这对于项目负责人来说，却是一个不小的挑战。

由于大模型的「幻觉」问题，此时的代码和安全审查就变得尤为重要了。

为了解决这些挑战，亚马逊云科技全面推出了AI加持的代码开发工具Amazon CodeWhisperer，可以让用户实现更快、更稳健的开发。

具体来说，经过数十亿行亚马逊和公开可用代码的训练之后，Amazon CodeWhisperer不仅可以理解用自然语言（英语）编写的注释，还能实时生成整个函数和代码的逻辑块（通常包含10-15行代码）。

代码生成

与此同时，Amazon CodeWhisperer还会自动过滤掉任何可能有偏见或不公平的代码建议，并且对疑似开源代码进行过滤和标记。

要知道，开发者从网上复制代码片段时，很可能就会复制了有安全隐患的代码，或者对开源代码的使用没有进行有效的追溯。而Amazon CodeWhisperer大大扫清了这些潜在的问题。

参考检查

在安全方面，Amazon CodeWhisperer也是查漏洞、debug样样精通。而且它查起bug来还非常细致，不仅会扫描开发者编写的代码，甚至连自己生成的都不放过。

安全检查

当然，对于个人用户来说，最重要的一点便是——Amazon CodeWhisperer可以免费用！

端到端的云原生数据战略

数据爆炸不是未来，而是现实。

生成式人工智能狂飙猛进的背后，是海量数据在发挥着巨大的价值。

可以看到，数据不仅是AI发展的驱动力，更是商业和社会创新的核心要素。数据驱动的决策和洞察力已经成为各行各业的竞争优势。

Matt在峰会上表示，「我相信数据是现代革新的起源，尤其是生成式AI」。

而如何管理海量数据，挖掘数据价值，对每个企业来说都是巨大的挑战。

当前，我们需要的不仅仅是变革性技术和完善的基础设施，更需要一个端到端的云原生数据战略，进而用数据创造新的idea。

而一个强大云原生数据战略，应当有三个核心特征：全面的、集成的和受治理的。

1. 全面的数据服务

「全面」简言之，能够提供一套工具适用于任何case。

从2006年，亚马逊云科技发布了第一个储存服务Amazon S3开始，便致力于探索云原生数据服务的边界。

亚马逊云科技提供了一套全球领先的、全类别云数据库服务，以及最全面的数据分析服务。

就数据库讲，有关系型数据库、非关系型数据库8大类型。

在数据分析服务方面，有交互式查询的Amazon Athena、大数据分析服务Amazon EMR、云上数据仓库Amazon Redshift、商业智能工具Amazon QuickSight，做日志分析的Amazon OpenSearch等。

2. 互相集成数据源

此外，连接数据的能力，实现数据一体化融合也是非常重要。

这样做的优势在于，把所有数据资产连接，能够让客户更容易获取数据。

当前，亚马逊云科技将很多产品之间做了深度集成，其中就包括Amazon S3、Amazon Redshift等。

而最最重要的是，亚马逊云科技正在致力实现一个「Zero ETL」愿景。

ETL是指数据的提取、转换和加载过程。以往，业务数据往往需要通过ETL，才能进行分析从而提供洞察。

然而，这一过程非常耗时且复杂，「Zero ETL」是迈出的关键一步。

在Amazon re:Invent 2022全球大会上，亚马逊云科技全新发布的Amazon Aurora zero-ETL与Amazon Redshift集成功能，能够帮助客户实时分析PB级交易数据。

此外，亚马逊云科技数据服务可以与外部数据库实现Zero的集成。

让数据实现一体化融合，将其数据库、数据服务底层打通，由此数据实现「无感知」流动。

3. 正确的治理策略

当前，数据爆炸性增长，为数据治理带来了前所未有的复杂度。

要知道，良好的治理是整个团队可以访问数据的基础。

在数据治理过程中，通常涉及到不同团队、应用和权限管理，由此当前急需细颗粒度的数据治理。

亚马逊云科技全新的数据管理服务Amazon DataZone，可以帮助企业对内部数据进行编目、发现、共享和治理。

通过自身17年的数据创新经验，亚马逊云科技总结出云原生数据战略的重要构成要素。

F1、阿凡达2，全靠它

如今的AIGC大爆发，突发的用量都对系统提出了更高的需求，当海量用户暴涨时，如何应对弹性变化？

基于一流的模型、安全的环境，以及低成本和低延迟的基础设施，亚马逊云科技为客户所面对的各类棘手挑战提供了支持。

比如，在世界上最受欢迎的体育赛事之一——F1赛车中，就大量用到了亚马逊云科技的算力，形成了高性能业务场景，在高速度中进行大量的模拟。

提供关键支持的，正是亚马逊云科技的三大法宝——Amazon SageMaker、Amazon Kinesis和Amazon S3。

每辆F1赛车上都有300个传感器，每秒可产生超过110万个数据点，并从赛车传输到维修站，因此 F1 是一项真正以数据为驱动的运动。

亚马逊云科技能够带来的是，高性能计算。F1能够运行空气动力学模拟，用比以往快70%的速度开发，并打造出一款能将下压力损失从50%降低到15%的赛车。

而压力损失的大幅降低，可以让车手有了更多超车机会，表现也得到提升。

此外，F1还利用Amazon S3上存储的70年历史比赛数据，通过复杂的模型进行分析，作为丰富的数据洞察与车迷分享，揭示出瞬间决策的细微差别，并通过这些先进的统计数据突出不同车手的表现。

再举个栗子，维塔数码是全球领先的综合性视觉效果公司，创作了《阿凡达》、《指环王》、《猩球崛起》一系列巨作。

在《阿凡达：水之道》中，亚马逊云科技在8个月内完成了高达33亿渲染线程小时的云上制作，助力其打造48FPS HFR的逼真特效并按时交付，保证了影片的顺利上映。

早在2020年，视频特效制作公司 Wētā FX 公司已将业务全面部署至亚马逊云科技，创建了新的基于云的视觉特效（VFX）制作流程。

Wētā FX 在电影中创造了令人难忘的场景和人物，包括《阿凡达》中的纳美族和潘多拉星球的美丽风景。

亚马逊云科技为工作室提供了最全面的内容制作云功能集，并且使他们在几小时内就能建立创意工作站，无需耗费几周时间。

而工作室则获得了近乎无限的扩展能力，可以在亚马逊云基础设施中按需渲染。

除了以上实例，地球已经不是云计算的边界，亚马逊云科技的技术已经可以在太空这种极端环境中收集、处理数据，并做出实时的决定。

生成式AI大爆发，在这个人工智能的iPhone时刻，越来越多的企业想要抓住机遇，同时面临着挑战。

而面对全球算力井喷带来的挑战，亚马逊云科技通过自研芯片提供高性价比、各种丰富的弹性计算存储服务组合，以及简化算力的Serverless架构去解决问题。

目前，亚马逊云科技的在全球部署这无处不在的云服务，全球31个区域的99个可用区，已经覆盖了245个国家和地区。

在AI领域深耕25年的亚马逊云科技，为10万+客户提供AI和机器学习服务来抓住当下生成式AI挑战和机遇。

从另一面来看，这个选择是双向的，越来越多客户的加入也是对亚马逊云科技AI能力和战略的认可。

在演讲结尾，亚马逊云科技全球产品副总裁Matt Wood引用了Bob Dylan的这首著名歌曲<The Times They Are A-Changin'>：

不要急着说话，因为轮子还在旋转
而且不知道它的名字是谁
不要站在门口，不要堵住大厅
谁停滞不前，谁就会受伤
外面有一场战斗，正在肆虐
很快，它会摇晃你的窗户，震动你的墙壁

时代变了，我们应该向旧传统决裂。

同样，生成式AI的到来，也在让这个时代改变。

当下，亚马逊云科技正在做的，是帮助让每个企业利用好AI，释放生成式AI的巨大潜力。

点击「阅读原文」

立即了解更多2023亚马逊云科技中国峰会信息

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章