“既懂AI,又懂云计算,才能在竞争里取得一个重要的战略性优势。”今年的云栖大会,有多位老将又出现了。9月正式上任的阿里巴巴集团董事会主席蔡崇信、CEO吴泳铭,将上任后的第一次公开露面放在了阿里云,而传闻中已经回归的“阿里云之父”王坚,也以阿里云创始人的身份出现。由此可见阿里云在整个阿里巴巴的战略重要性。
年初,张建峰卸任阿里云总裁,由当时的阿里董事会主席兼CEO张勇兼任;随后,阿里宣布开启“1+6+N”组织变革,阿里云从集团母体完全分拆,并计划在未来12个月内完成上市;一个月前,张勇卸任集团职务的同时,宣布同时卸任阿里云董事长与CEO,交由吴泳铭接任。而机遇也总是与挑战并存,在一年历经三度“换帅”的同时,阿里云也迎来至关重要的发展机会——AI大模型的火爆,进一步助推了阿里云的想象力。距离ChatGPT发布一周年还有一个月的时间,科技巨头们又开启了新一轮大模型竞速,阿里云的大模型战略也比上半年变得更加清晰:坚定站在云计算的出发点做大模型,建立AI时代全栈的云计算体系。阿里云集团首席技术官周靖人表示,2009年阿里云就提出“数据中心是一台计算机”的理念,今天,AI时代更加需要这样的技术体系。作为一台超级计算机的云计算,可高效连接异构计算资源,突破单一性能芯片瓶颈,协同完成大规模智能计算任务。云栖大会当天,周靖人宣布升级AI基础设施,并发布了一系列产品。其中包括千亿级参数大模型通义千问2.0、八款行业大模型、大模型应用开发平台“阿里云百炼”。据了解,相比4月发布的1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前,阿里云已开源通义千问7B、14B版本,周靖人表示通义千问72B模型即将开源,将成为中国参数最大的开源模型:“目前,中国有一半大模型企业跑在阿里云上,280万AI开发者活跃在阿里云魔搭社区上,未来,阿里云将携手千行百业推动AI创新,共享技术红利。”阿里云集团首席技术官周靖人、阿里云副总裁张启在云栖大会期间接受了媒体的采访,以下为采访实录(有删减): 竞争与开放
周靖人:在AI时代,阿里云的定位是服务好各种各样在AI时代的创业者、开发者,包括企业客户等等。今天,云所面对的客户分了很多阶层,有的可能来自于模型创业公司,他们更希望的是使用到最先进的AI基础设施,能够帮助他们去做模型的创造,去做大模型的研究;还有一类客户,是希望能够把已有的开源模型,有效结合自己的产品做二次创新;还有的客户,希望把通义千问的能力,或者把整个应用模型包括星尘、点金的能力,通过简单的API包装能集成到自己的业务体系里来。问:阿里云和国内头部大模型开放公司有没有一些合作的想象空间?周靖人:有非常多的合作空间,比如百川智能是阿里云一个重要的客户,也是一个合作伙伴。包括智谱AI和国内其他模型创业公司,都是我们AI基础设施重要的一个用户。我们有各种各样的客户,他们有不同的技术能力,有的支撑技术能力很强,更多是希望把相关已有的模型应用在自己现有的系统里,我们对不一样的客户有不一样的解决方案。阿里云是提供一个完整的产品技术框架。问:现在整个算力受到一定的干扰,有些云厂商在美国政策出来之后优先供应自身内部的需求,而不是对外提供。阿里云作为国内最大的一家云厂商,在短期内算力问题无法得到缓解的情况下,会不会更多倾向于支持自身模型? 张启:我相信所有中国厂商短期内都会碰到这个问题,我们也会做各类准备。2009年阿里云成立的第一天,王坚提出三句话,互联网是基础设施、数据中心是一台计算机、计算会成为公共服务。阿里云成立的第一天,就是把更便宜的、性能更低的、各个层面更便宜普惠的PC机成百上千,甚至几十万上百万地连接起来,让它提供更强的算力,能够去做更大的计算任务突破。今天面临同样的情况,在未来的一段时间里,大家可能都面临没有很强的单芯片性能的情况。这个才是云计算真正要发挥价值的地方,它就是要把成千上万,十万上百万异构的芯片连接起来。单一芯片性能可能不行,但整体上能通过并行计算实现任务。周靖人:首先,阿里云一定是个开放的平台,我们和各个公司都有紧密的合作。当前我们遇到的挑战是产业化的挑战,需要一起携手去面对,而且阿里云也是在底层技术方面通过异构的能力,通过并行化的能力,在不断地进行创新和突破。我们的目标是为每一个中国的AI公司提供足够的算力,这个方向没有变化。 问:阿里云推出了很多模型产品,现在也有很多AI应用厂商,阿里云如何考虑和他们的关系?阿里云的模型产品是to B、to C都做吗?周靖人:我们并不是做一个to C的产品,我们更多希望把模型的能力开放出来,能够让更多开发者、合作伙伴去使用。所有的模型都会以API的形式,把模型的接口开放出来。我们讲云上的开发者,不能只关注云上的创业公司,我们还会面对更多模型应用的开发者,这是一个不可忽视的群体,人工智能产业要获得成功,一定要让这样一群人发展起来。 问:这一次发布了很多通义大模型下的行业应用模型,它和阿里其他团队关系怎么样,比如通义万相的写真馆,和前段时间比较火的AI相机比较像,会不会有竞争关系?“1+6+N”之后,阿里云跟其他兄弟公司的合作关系会不会有些变化?张启:据我所知,目前国内第一个大规模落地的AI应用应该是在通义千问发了之后,钉钉进行全面的改造。前几个月淘宝也在测试淘宝问问,夸克也做了非常多大模型方面的尝试和进展,阿里国际站也在大模型方面进行了很多探索,各个业务都在自己的方向摸索,现在还是一个非常早期的阶段。周靖人:整个阿里大集团在模型上的创新和探索非常多,当然不同的创新、不同的应用正处于不同的阶段。有些可以对外发布,像刚才讲到的钉钉,有的还在探索和适配中。我们之所以做(通义万相)这个模型,初衷不是做一个to C的产品,是希望把能力能够释放出来。我们希望有更多妙鸭相机的公司在阿里云上面能够发展起来,能够获得成功,妙鸭相机本身模型服务也是基于阿里云PAI灵积的平台。我们今天是一个模型的展示,但并不是一个完整的应用。为了要把模型的能力应用在整个业务系统里,还需要进行开发。我们希望有这样的能力,其他的开发者也许不具备模型能力的创新,或者不愿意在这方面花时间的话,他可以用这样的模型集成在自己的业务体系里。这个不存在任何冲突,也不存在任何竞争的关系。
技术升级
问:通义千问2.0在阿里云大模型研究历程中处于什么位置?如果对标ChatGPT,通义千问2.0现在属于什么水平?周靖人:我们在大模型这方面的研究,从2018年底、2019年初就开始了,那个时候我们还叫预训练模型,今天通义千问的模型就是在之前整个预训练模型的技术体系里面发展起来的。所以,我们是有相当的技术积累。阿里云集团首席技术官周靖人。
从4月份开始对外发布以后,通义千问进行了一系列升级,通义千问2.0是个千亿级规模的大模型,我们的目标一方面是开发产品本身,更重要的是我们把这个大模型以API方式开放出来,能够让更多人使用,至于模型能力部分,我们也做了很多测评,比较客观地验证通义千问2.0的能力。在模型的评比里面,通义千问2.0比ChatGPT3.5来说有非常大的胜率,在ChatGPT4.0里面大家各有胜负。我相信最好是用户来做一个评价,大家可以去尝试,给一个判断,本身这个模型也在不断地演进过程当中,每个人的体感是不一样的。即使回答同一个问题,有的人觉得模型A不错,有的人觉得模型B不错,其实很大程度上模型反馈质量好坏也是个性化的体感,这个是我们接下来面对的一个技术问题,怎么能够找到大家个性化的需求,能够帮助大家个性化地去定制相关的模型。我们认为,(大模型)都还在技术发展过程中间,距离任何一个定论都为时尚早。而且整个这个领域发展得非常快,每个月大家都在进步。接下来我们还有更好的模型推出,也敬请关注。周靖人:虽然我们很关注模型,但模型是业务系统开发的一环,也希望媒体不能只关注模型,还有很多数据,特别是数据库、存储等一系列的能力也是做科技创新所必需的。我们看到了几方面:一方面是serverless(无服务器计算),阿里云在这方面引领这个领域的发展,积极去推出一系列serverless的产品。几乎今天所有的产品体系都有serverless的产品提供,更重要是帮助大家降低了使用云的门槛,能够让大家用新的方式去使用云。二是容器,这次我们推出了ECS阿里云容器服务,更进一步去应对更加趋于容器的开发范式。今天所有开发者是大量使用容器,如果和云能够有效地结合起来,能够帮助大家快速去部署,能够帮助大家在各个产品之间资源的互通、资源互相的调动。三是流程式的开发。今天所有的系统开发已经不再是使用一个单一的产品,说我使用一个大数据,或者使用一个数据库就结束了,往往前端是数据处理,后端是模型的应用等,很多复杂的产品体系要融合一起使用。同时,我们之前讲到Model as a service(MaaS,模型即服务),它既代表了架构上的升级,也代表了围绕着模型一系列的范式转移。今天开发的模式更多是以模型为中心,也就是说模型类似于一个半成品,或者一个重要的生产因素,有了这个模型,可以很好提供给其他业务系统的开发者使用。问:阿里云大模型目前投入的成本是怎样的?未来的商业化有什么考虑?周靖人:我们的目标是要服务好每一位的开发者或创业者,进一步地帮助大家能够降低使用AI的成本。所以我们才会做到今天模型的开源,包括基础设施特别是在模型推理方面的工作,不单是提升整个延迟各个方面的性能指标,同时能够降低使用模型推理的成本。我认为在这方面,还有大量的工作需要做。我们的目标是要把模型推理的成本能够再降几个数量级,让更多的应用开发使用到AI的能力。就像我们一再讲降低用云的门槛一样,我们也希望能够降低使用模型的门槛。问:我们的客户集中于哪些行业或者哪些场景?如何保证数据安全的问题?周靖人:今天各行各业对大模型的热情,应该说都在快速的升温过程中。我们今天很难说哪一个行业没有对大模型产生非常大的兴趣。企业使用模型时的数据安全问题,我们从4月份发布的时候就强调过。阿里云百炼平台,背后依赖的是整个阿里云对数据的安全管控。也就是说,今天在阿里云上面去创建这样一个账号,所有的数据是安全的,是没有人能够触达到的,而且相关的企业级数据是不用于模型的训练的,只用于今天针对于企业的模型的微调。所有的这些数据并不会用于基础模型的训练。我们通过百炼这个平台,加强每一个流程包括审计各方面的能力,能够更有效地帮助企业去使用模型。当然我们也提供各种各样部署的方案,我们也理解有一些企业需要把模型部署在一个特殊的场景里面,我们也提供相关的支持,能够有效去配合它的业务需求。问:云计算服务本身和大模型之间的强强结合,到底对云服务上量能起到什么直观的作用?周靖人:其实这次AI技术变革背后实质是一个技术体系全面的升级。它表面上看起来是一个模型方面的事情,其实背后是云计算技术的方方面面,甚至可以说是计算机科学技术全面的升级。这是一个非常有趣的现象,特别是对云厂商的公司,要既懂AI,又懂云计算,才能在这次竞争里取得一个重要的战略性优势,这也是为什么微软从它的财报看起来能够在云计算竞争里脱颖而出,因为有OpenAI和Azure的加持。如果今天AI能力和云计算能力没有有效地融合在一起,很大程度上是不利于AI产业以及云计算的发展。这方面正好是阿里云一个独特的优势,我们既有历史悠久、规模强大的云计算,也有非常前瞻的一系列AI研究,包括当前模型一系列的研发,以及整个开源的生态。我们认为,大家一定要给这个领域一些时间。国内来讲,是从今年3、4月份开始,大家才陆陆续续发模型。在这方面,我们的确是比海外要晚,海外还是经历了至少一年的先发优势,甚至更长的时间。我们也在快速地追赶过程中。短短半年时间,模型的生态已经开始慢慢发展起来了。模型的生态发展起来,一定代表了算力也发展起来。新闻热线&投稿邮箱:[email protected]