Redian新闻
>
阿里云大模型的「阳谋」:全面发展不偏科,一力降十会

阿里云大模型的「阳谋」:全面发展不偏科,一力降十会

科技

7 月 7 日,阿里云「AI 绘画创作」大模型通义万相亮相,在大模型领域又落一子。


作者 | 郑玄

阿里云的「通义大模型家族」,加入了新的成员。

7 月 7 日,上海 WAIC 世界人工智能大会期间,阿里云公布了新的 AI 绘画创作大模型通义万相,将大模型的模态从文本和语音延伸到图像,逐步向多模态模型靠近。
阿里云在会上介绍,通义万相拥有文生图和图生图能力,可辅助人类进行图片创作,大幅降低图片设计门槛,可应用于艺术设计、游戏和文创等应用场景,目前已开启定向邀测。该模型首批上线的功能具体包括以下三种:
  • 文本生成图像。输入文字描述画面并选定创作风格(水彩、油画、中国画、二次元等),AI 即可自动生成创作图片。
  • 相似图生成。提供一张参考图像,可获取内容、风格相似的 AI 画作。
  • 风格迁移。上传原图和风格图,可自动把原图处理为指定的风格图。
输入一段提示词,通义万相生成的 AI 创作图片
时至今日,大模型将重塑软件服务行业已经成为行业共识。作为国内最大的云服务厂商,过去一段时间阿里云不断加大这一领域的技术和产品研发投入,阿里巴巴集团董事局主席、首席执行官张勇甚至亲自挂帅,担任阿里云智能集团的 CEO。
正如张勇在接受采访时所说,所有行业、所有应用、所有软件、所有服务,都值得基于新型人工智能技术、基于 AIGC 各方面技术支撑、大模型支撑重做一遍,这一定不仅能带来创新性的客户体验、客户服务的满足,也会让我们的生产范式、工作范式、生活范式发生很多变化。
从阿里云首次公开基础大模型通义千问,已经过去三个月的时间,阿里云自研大模型的布局,也已初见端倪。


01

苦练内功多年,

通义大模型家族开花结果



无论是 Transformer 还是 Diffusion,都为大模型的研发奠定了基础。两大主流框架的问世让大模型研发的门槛大幅降低,但在这之上的创新则是研发出差异化竞争优势大模型的关键。
根据阿里云介绍,通义万相是阿里在大模型领域苦练内功多年的产物,其基于阿里研发的组合式生成模型 Composer,后者是一种基于扩散模型的「组合式生成」框架,这一引领性的成果早在今年 2 月相就已发表,并吸引了国内外行业内人士的广泛关注。
其基本原理是:先将图像拆解成不同设计元素(配色、草图、布局、风格、语义、材质等),再使用 AI 模型将这些元素重新组合,中间使用的元素可以自由编辑。假设有 100 张图片,每张图片拆成 8 种元素,则全部元素的组合方式有 100 的 8 次方种之多,这被阿里云称为「组合爆炸」,可以给人类设计师生成图片提供极大的自由度和想象空间。
加上此前已经推出大语言模型「通义千问」和聚焦音频的大模型应用产品「通义听悟」,三个月的时间,阿里已经推出三个不同的大模型和产品,模态也已经从对话、文本等文字处理,延伸至音频、图像领域。
短时间内在产品层面取得进展的背后,是阿里在 NLP、计算机视觉等前沿科研领域多年的布局的结果。
极客公园梳理了阿里大模型的发展脉络。如下图所示,阿里最早于 2018 年底启动大模型研发,在 2022 年的 AIGC 热潮到来之前,阿里已经在超大模型、语言及多模态能力、低碳训练、平台化服务、落地应用等多个方面,做出了一定的投入和尝试。
阿里大模型发展时间线丨制作:极客公园
2022 年四季度,ChatGPT 发布后很快掀起了新的一轮 AI 热潮,阿里也加快了行动步伐,加速将实验室里的技术产品化,推入市场。
2023 年 4 月 7 日,阿里云正式推出大语言模型「通义千问」,该模型能够响应人类以自然语言方式提出的各类指令,拥有回答问题、创作文字、编写代码等能力。两个月后,阿里云上线了音视频 AI 产品「通义听悟」,后者是接入了通义千问大模型能力的应用产品,用户可以随时随地高效完成对音视频内容的转写、检索、摘要和整理,比如用大模型自动做笔记、整理访谈、提取 PPT 等。
研发基础大模型能力和开发产品的同时,阿里云也在加快生态的建设。阿里云透露,通义千问问世后不到三个月,目前已有 30 万企业用户申请接入,电力、通信、交通、金融、企服等多个行业的数字服务商,也成为通义千问的首批合作伙伴。
而随着新的模型和产品陆续发布,阿里云大模型的使用场景和覆盖行业也在进一步拓展。通义听悟提供的音频内容撰写、检索、摘要、整理功能,拓展了大模型在企业会议、访谈等场景的使用;而通义万相的文生图和图生图能力,补齐了阿里云大模型的关键拼图,未来可用于电商、艺术设计、游戏等更广泛的文创场景。
放眼全球,这样的全面布局也仅有寥寥数家。

02

百模之争,

阿里云软硬兼修

稳坐第一梯队


客观来说,不论是今天发布的通义万相,还是更早的通义千问、通义听悟,阿里云的这些大模型产品本身不是科技产业的新物种。在海外,此前已经有 Whisper、ChatGPT、Midjourney 等功能相近的大模型和应用产品。
国内在大模型领域起步较晚,过去几个月,国内科技公司、创业团队纷纷卷入这一赛道,仅仅上海世界人工智能大会几天,就有数十个大模型亮相,百模之争的盛况愈演愈烈,但现实仍然很骨感,目前在市面上能打的模型仍然寥寥可数,今天不论是基础的大模型能力,还是基于大模型的基础应用产品,全行业仍在极力追赶。
想要在这一领域实现赶超,不论是研发大模型还是开发优秀的应用,都不是「抄作业」这么简单。比如大模型的研发,就不仅仅是靠算法,或者靠财力简单堆 GPU 就能实现,这是囊括了底层算力、网络、存储、大数据、AI 框架、AI 模型等复杂技术的系统性工程,需要 AI-云计算的全栈技术能力。
而想要打造 ChatGPT 这样的杀手级应用,也不只是有个好的大模型就能解决所有问题。OpenAI 是通过数年努力,构建起了一条从上游数据、大模型,到产品、生态的完整产业链条。不论是在国内还是国外,发展大模型都需要对技术、产品和生态的全方位投入。
阿里云大模型战略的决策者,显然意识到了这个问题。过去数月,阿里云并没有尝试去打造一个博眼球的、与海外同行差异化的所谓「杀手级产品」。而是全方位地投入技术、算力,打磨算法和基础产品,发展技术和行业生态。「全面发展不偏科」,也将是接下来一段时间,阿里云在大模型领域坚持的基础战略。
这样的做法不可谓不「奢侈」。而能做到这一点,是因为阿里是全球少数在这几个领域都有深度布局、长久积累的科技公司之一。
AI 算法方面,阿里达摩院是国内最早启动大模型研究的机构之一。2018 年底便开始投入大模型研发,在中文大模型领域一直处于引领地位,2021 年阿里先后发布国内首个超百亿参数的多模态大模型及语言大模型,此后还训练实现了全球首个 10 万亿参数 AI 模型。2022 年,达摩院推出集大成的通义大模型,在语言及多模态能力、超大模型、通用统一模型等多个技术维度上,处于国内第一梯队。
在构建自身技术地基的同时,阿里也早早嗅到了 AI 生态的机遇,最早提出 MaaS 概念(模型即服务),并牵头建设了国内规模最大的 AI 模型服务社区「魔搭」,联动澜舟科技、深势科技、智谱 AI 等机构开源开放 AI 模型,帮助中小企业和开发者降低模型使用门槛,推动 AI 普惠。
当然在各类大模型遍地开花的背后,算力同样取到了决定性作用。不夸张地说,彻底引爆大模型的 ChatGPT 没有微软 Azure 强大的算力支撑,这一轮大模型的浪潮恐怕至少要往后推迟几年。
而在这项关键指标中,阿里云也是全球最领先的玩家之一,作为亚太第一、全球第三的云计算服务商,阿里云拥有国内最强的智能算力储备,可以源源不断地为大模型研发输血。根据官方的信息显示,阿里云的智算集群可支持最大十万卡 GPU 规模,承载多个万亿参数大模型同时在线训练。基于飞天智算的阿里云深度学习平台 PAI,可将计算资源利用率提高 3 倍以上,AI 训练效率提升 11 倍,推理效率提升 6 倍,深度支持了通义大模型的研发。
强大的云基础设施能力、深厚的大模型技术积淀,对大模型的研发来说缺一不可。多年的技术积累,是阿里参与本轮 AI 技术浪潮、持续开展技术长跑的重要保障。
显然,阿里决心已定,一次新的长跑已经开启。


*头图来源:阿里云
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO


极客一问
你怎么看阿里云自研

大模型的战略









 

热点视频

速看!马斯克在2023世界人工智能大会开幕式发言完整版

点赞关注极客公园视频号
观看更多精彩视频



 

更多阅读




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
什么样的老师对学生全面发展非常关键?航天英雄杨利伟这样说……跟踪许久…游民把华女推下地铁 检控「早有预谋」阿里云开源「通义千问」大模型;马斯克:特斯拉有望年底实现完全自动驾驶;妙鸭相机上线 B 端工作站 | 极客早知道百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报油画 桃林通义千问能看图了!阿里云开源视觉语言大模型 Qwen-VL ,支持图文双模态输入华为盘古大模型或迎大升级;张勇首谈全心投入阿里云原因;美团证实王慧文离岗丨AIGC大事日报大模型的思想钢印:如何让ChatGPT相信水是有毒的?​中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制阿里云不再把开发大模型当OKR,MaaS第一阶段竞争结束了阿里云造「生态」,能让开发者实现「大模型创业自由」吗?Doris Day/Que sera, sera阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl大模型颠覆研发模式:字节跳动是如何在单元测试中落地大模型的?只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型idealism biggest driving forces through challenging times and he通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入阿里云通义千问开源;腾讯混元大模型开始应用内测;马斯克或从OpenAI买入域名Ai.com丨AIGC大事日报阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅阿里云在AI大模型评估中获6项满分 | 绿研院日报阿里云被曝裁员比例达7%,回应称正常操作;比亚迪新品牌曝光,中文名疑为「方程豹」;阿里小红书技术负责人投身大模型创业|雷峰早报大模型的「中国路径」:B端碎片化+C端免费习近平在北京育英学校考察时强调 争当德智体美劳全面发展的新时代好儿童 向全国广大少年儿童祝贺“六一”国际儿童节快乐只有在A股市场上摸爬滚打20年以上的人才知道的A股财富密码GPT-3.5 Turbo推出微调功能;昆仑万维天工AI搜索引擎内测;阿里云等联合发布教育大模型免费、可商用,阿里云开源70亿参数通义千问大模型对话中国大模型的最早推行者黄铁军:全球可能只需要三个大模型生态爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯王坚或将正式回归阿里云,阿里云重整旗鼓|最前线阿里云大裁员!!!拆分上市!!!阿里云大规模裁员?最新回应来了大模型与知识图谱融合?爱数推出基于大模型的领域认知智能产品与方案这场戏完美展现了男女调情的本质|《低俗小说》深度赏析六大规模语言模型剪枝又一力作,比SparseGPT还快300倍!阿里云大裁员:上岸第一剑,先砍意中人阿里云回应裁员/ iOS 17新功能曝光,锁屏iPhone大变样/小米称不做通用大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。