行业观察 | 开源,阿里云想激发中国大模型生态
开源还是闭源,这是一个难题,背后涉及多方因素考量,阿里云的选择是两个都要
编辑 | 谢丽容
阿里云在大模型市场正在形成开源、闭源两条腿走路的布局——核心目的是激发中国的大模型生态。值得注意的是,阿里云是目前中国头部云计算厂商中,唯一一家选择开源的企业。
开源部分,阿里云的策略是,通过免费大模型,降低模型使用门槛。在阿里云的魔搭社区上,同时包括阿里云和第三方的开源模型,开发者可以参与开源模型的技术迭代。
近两个月来,阿里云已连续开源了多款通义千问版本模型。8月,阿里云开源了通义千问70亿参数模型等多个版本模型,包括通用模型Qwen-7B和对话模型Qwen-7B-Chat。9月25日,阿里云再次宣布开源通义千问140亿参数模型Qwen-14B和Qwen-14B-Chat,继续供全社会免费使用。
通常基础大模型的参数规模在千亿或万亿级别,70亿、140亿参数的开源大模型需要的算力、数据更少。大模型开源意味着个人开发者、中小型企业能够用较低的成本使用,不用花高昂的成本采购闭源大模型。它最大的价值是扩大用户规模、培育产业生态。
阿里云还同时针对开源和闭源模型,采取了生态开放的策略。阿里云会提供灵积(DashScope)这一MaaS(Model as a Service,模型即服务)平台和底层算力资源,专注商业应用、产业落地。灵积平台对第三方是开放的,上面包括阿里云通义模型和第三方大模型,可以调用各类大模型API和工具链。
9月25日,阿里云CTO(首席技术官)周靖人在通义千问开源发布会上表示,阿里云将持续拥抱开源开放,推动中国大模型生态建设。阿里云相信开源开放的力量,希望率先开源自研大模型,让大模型技术更快触达中小企业和个人开发者。
大模型市场长期存在开源和闭源两种路线。但事实上,开源、闭源两者是相辅相成的。开源模型和开源社区可以在上游用免费策略负责扩大用户基数、拓展产业生态、迭代模型技术。闭源部分依旧可以在下游专注产品化、行业化、商业化。
从软件发展历史来看,开源、闭源一直是两条路径。两条路径都可以跑出成功的企业,甚至存在可以同时兼顾开源+闭源两种路径的企业。手机操作系统市场,安卓是开源的,iOS是闭源的。电脑操作系统,Windows是闭源的,Linux是开源的。数据库市场,Oracle更是同时掌握了闭源的Oracle商业版和开源的Mysql。
闭源软件的收费模式一般分成两种,一是软件订阅,二是软件license(许可证)授权。开源软件通常没有完整闭环的商业模式,主要依靠社区捐赠生存。
大模型市场同样存在开源和闭源两种路线。大模型开源,指的是公开提供源代码、模型结构、训练方法、数据集等一系列内容。这比开源软件只公开提供源代码更进了一步。
一般情况,闭源版本约等于付费版本。企业付费意愿强,追求产品稳定、可靠、少折腾,会选择闭源版本的大模型。开源版本约等于免费版本。企业如果不想付费,有一支技术水平较强的开发团队,愿意愿意花时间、人力成本去修改定制,通常会选择开源版。
在美国市场,典型的开源大模型包括Meta的Llama2,典型的闭源大模型是OpenAI的GPT-4。在中国市场,阿里云是“开源+闭源”两条腿走路,百度、腾讯等头部企业的大模型走闭源路线,智源、百川智能等一批创业公司的大模型也选择了开源路线。
大模型闭源路线的观点是,开源大模型和开源软件的逻辑不一样。开源软件研发成本可以靠社会化开发者参与而摊薄,但开源大模型训练、推理成本太高,开发者参与非但无法降低研发成本,还会推高算力成本。
一位云厂商高管在今年8月曾明确表示不打算发展开源大模型。在他看来,传统软件开发,开发者为开源软件写代码后,可以很快check in(写入代码),软件能力会因为开发者参与而提高。大模型情况不一样,以Facebook的开源大模型Llama2为例,“国内不管有多少人在用Llama2,都没法check in回去,数据、算力、能力都放不回去。”
这位云厂商高管的判断是,未来中国大部分创业公司的开源大模型都难以生存,只有少数背靠云厂商的开源大模型才有空间。他的判断与其所在的云厂商算力资源相对有限,希望战略聚焦不无关系。
与之相反,阿里云CTO(首席技术官)周靖人表示,阿里云走大模型开源路线,希望让算力更普惠,让AI更普及。在他看来,大模型现在还在演进的初级阶段。是否要自己开发、要使用何种的模型,都应该由效果决定。应该站在开发者视角,给开发者工具和选择,让他们自己去选型。
做出这种选择的一种解读是,阿里云是目前国内云厂商中算力资源最丰富的。阿里云长期支持开源这一技术文化。比如,早在2022年,阿里云牵头建设国内首个AI开源社区魔搭ModelScope。无论是从底层算力、MaaS层的模型平台、开源社区建设来看,阿里云的布局都很完整。因为布局广、算力大,阿里云有机会跑通大模型开源这条路,而且无论是开源、闭源,对阿里云都有利——只要能做大生态,带来更多算力消耗,走哪条路都可行。
一个不争的事实是,国内外开源大模型已经吸引了一大批用户。在云上部署一个开源模型成为了模型二次开发的主流做法。例如,云上部署Meta的Llama2、图像大模型Stable Diffusion等明星开源大模型的热度一直居高不下。
开源在很大程度上可以降低基座模型研发的门槛。模型参数大小与模型算力消耗通常呈正相关,模型越大,模型的训练和推理成本越高。在有效控制模型训练和推理精度的前提下,模型越小开发成本越低,算力成本也越低。这也越容易被企业、开发者所使用。
开源大模型通常都是“小型化”版本,参数规模在数十亿到百亿级别。对大模型应用层的企业和开发者来说,大量应用场景也不一定需要超大规模尺寸模型。基于小尺寸的开源大模型,能简化模型训练、部署过程,让模型更快试水、验证,并进行应用开发。
要做好大模型开源生态,要解决几个层面的问题——一是有较强的开源产品,对外公开;二是建立社区,扩大开发者规模,三是搭建好工具链、商业化平台,让合作伙伴能因此赚钱。
阿里云在大模型开源在这三个维度都已经初步搭建起了完整生态。
开源首先要有供开发者持续迭代的产品。阿里云目前已经公布了多款开源大模型产品。其中包括,70亿参数模型的通用模型Qwen-7B和对话模型Qwen-7B-Chat,140亿参数模型Qwen-14B和Qwen-14B-Chat。
一位阿里云人士表示,在“模型开源-社区反馈-技术优化”这样的正向循环中,可以最大程度提升模型研发效能。得益于采用了更高质量的数据,并有效了控制模型训练、推理精度,Qwen-14B取得了较强的性能。
在一份来自阿里云通义千问团队的学术论文中,此次发布的140亿参数开源模型Qwen-14B在自然语言理解、知识、代码、数学、推理等12个测评中超越了Meta的Llama2-13B等多个主流模型。Qwen-14B与Llama 2的34B、70B模型相比并不逊色。
开源还要有社区——在技术文化中,开源和社区是密不可分的。因为社区可以聚集一批开发者,开发者的自发参与会让技术实现涌现式的迭代。
大模型这种处于发展早期的技术,更需要社区凝聚开发者。在国际市场,Hugging Face这样中立、第三方的开源模型社区正在崛起。包括Google、Meta和微软以及第三方开发者都在社区内发布模型、参数、数据集等。Hugging Face已经是国际市场开发大模型的首选社区。截至2023年8月底,Hugging Face平台上公开的人工智能模型数量已经超过30万个。
魔搭ModelScope正在成为中国的Hugging Face,其活跃开发者超过230万人。早在2022年,阿里云牵头建设国内首个AI开源社区魔搭ModelScope。在魔搭平台上,所有模型开发者、生产者都可上传模型,验证模型的技术能力,探索模型的应用场景和商业化模式。
目前,魔搭社区模型贡献者覆盖国内大模型赛道核心玩家,如百川智能、IDEA研究院、兰丁股份、澜舟科技、清华TSAIL、深势科技、元语智能、浙江大学、智谱AI、上海人工智能实验室等。魔搭ModelScope目前已经聚集了230万AI开发者和由30多家顶尖人工智能机构贡献的1200多个优质AI模型,模型累计下载量突破8500万。相比2个月前,模型下载量同比增长近100%。
除了提供开源大模型、开源社区,阿里云还在为大模型玩家提供灵积(DashScope)平台和智能算力资源——这些举措能推动大模型应用落地,也为后续商业化铺垫好了道路。
阿里云的灵积(DashScope)平台能为第三方大模型提供训练、推理、部署、精调、测评、产品化落地等工具链。这个生态正在滚雪球式壮大,已经有部分第三方大模型玩家开始通过灵积平台商业化。
其中已经上线的第三方大模型包括Meta的Llama2、智谱AI的ChatGLM、清华大学的ChatGLM、百川智能的百川开源大模型、IDEA研究院的姜子牙、Databricks的Dolly、复旦大学OpenLMLab的MOSS等。
一种传统观点是,开源开放共享、免费使用的策略会限制商业化版本落地。这也是部分技术人士对开源大模型担忧的原因。阿里云CTO周靖人则认为,大模型要先做大生态,再考虑商业化。把社区、开发者培育起来,才是需要首要考虑的问题。
事实上,近年来另一种流行观点是,开源、闭源是技术发展上下游关系,两者并不矛盾。开源处于技术上游,其目标是考虑研发迭代、社区参与,确保技术领先同行。闭源处于下游,其目标是商业化,专注于提供个性化服务和解决方案,满足客户需求。一个典型案例是,数据库市场,Oracle就是“开源+闭源”两条腿走路。Oracle收购的开源数据库MySQL,开源社区、商业应用均取得了巨大成功。
大模型开源的逻辑其实也类似。开源模型和开源社区在上游用免费策略负责扩大用户基数、拓展产业生态、迭代模型技术。闭源部分依旧可以在下游专注产品化、行业化、商业化。
从这个角度来看,阿里云已经把大模型上下游生态三个环节——开源产品、开源社区、商业化路径都搭建起来了。此后,这三个环节需要在实践中逐渐跑顺。
事实上,目前已经有部分企业、机构基于阿里云的大模型实现了落地应用。一位阿里云人士表示,其中不仅包括创业企业、科研机构,还包括阿里系的淘宝、钉钉、未来精灵(原天猫精灵),以及阿里之外的大型科技互联网企业、创业团队及高校。
无论是模型开源,还是开放生态,阿里云这一系列举措,都是在培育“模型越强、应用越多、用户越广、算力越大”的市场飞轮。这种做大生态的做法,才能让大模型在中国市场真正快速、广泛落地应用。
当被问及“开源和商业化”的关系时,阿里云CTO(首席技术官)周靖人解释称,不管是闭源大模型还是开源大模型,自研大模型还是第三方大模型,大规模参数模型还是小规模参数模型,通用大模型还是行业、企业专属大模型,阿里云全部欢迎和支持。
仅从阿里云魔搭ModelScope社区截止9月的数据来看,大模型的生态飞轮刚刚转动起来——230万AI开发者,30多家顶尖人工智能机构,1200多个优质AI模型,模型累计下载量突破8500万。相比于全球最大的AI模型社区Hugging Face,它还有差距,但随着大模型快速普及,它在中国市场的空间还会更大。
阿里云副总裁、公众与客户沟通部总经理张启表示,阿里云希望建设大模型自由市场,让所有大模型都能更快、更便宜、更安全地跑在阿里云上。因此,阿里云率先开源7B、14B模型,并将持续开源开放,为开源社区贡献力量。
只有大模型落地速度足够快、规模足够大,才能真正改变中国云市场的现状。中国云市场过去2年长期在要规模还是要利润的这组矛盾之间摇摆。由于集成、定制化等传统业务长期存在,云厂商健康可持续增长的目标很艰难。
市场的一个期待是,AI和大模型将改变云计算市场的游戏规则。一位数字化企业高管今年9月对记者打了个比方,中国市场的客户经常想要传统的马车,但你不能真的只给他提供更快的马车,而是要用新技术给他换汽车。AI和大模型就是这样的新技术,它会真正改变过去传统软件、集成业务的游戏规则。
目前,大模型无论是技术迭代、产业落地、商业转化、都处于非常早期的阶段。一个来自多位云厂商高管的判断是,随着政策放开、商务谈判、落地交付逐步推进,2023年四季度、2024年一季度之后,国内大模型商用案例会规模化出现。事实上,在微软2023财年四季度(2023年二季度)财报电话会议中,微软管理层对投资者直言,2024年一季度之后,大模型会在微软云的业绩数据才会有明显的体现。
模型开源、开放生态,是让大模型技术快速落地的有效策略,也是让“模型越强、应用越多、用户越广、算力越大”这个飞轮旋转起来的唯一途径。
微信扫码关注该文公众号作者