Redian新闻
>
i-Refill | 被ChatGPT带飞的AIGC,能为垂直产业做些什么?

i-Refill | 被ChatGPT带飞的AIGC,能为垂直产业做些什么?

公众号新闻

#i-Refill

欢迎来到这周的i-Refill! 


AI的浪潮越来越热,讨论和话题度始终不减,我们这周的科技话题也与AI有关。可能大家在ChatGPT的火热中总会听到关于“AIGC”这个名词,我们在此前的文章全球首支AIGC动画短片发布,不是人做的里曾经解释过,AIGC即AI Generated Content,是指利用人工智能技术来生成内容,是生成式AI(Generative AI)的子集,AIGC也被认为是继UGC、PGC之后的新型内容生产方式。

那么这一关键性的内容生产方,未来会对哪些垂直产业赋能呢,具体能为他们做什么呢?

这篇文章将从 AIGC 技术 -> 产品 -> 业务应用和价值实现环节探讨其发展路径,希望能给你一些启发。


全文共4127字

阅读时间约5min

本文转载自公众号机器之心

作者:机器之心编辑部


去年以来出现了 AIGC 热潮,引发了 AIGC 及其应用话题的爆发性增长,不少人感慨强人工智能的时代已经离我们不那么遥远了。但是在热潮的另一面,我们看到真正能落地的场景依然是凤毛麟角,目前比较成功的应用主要集中在个人消费领域,而 AIGC 在产业中的应用大多仍然处于探索阶段。
有机构在 22 年 9 月就对 AIGC 做出了以下预判:文字类 AI 生成将在 2023 年进入黄金时期,图片类 AI 生成黄金时期将在 2025 年左右抵达,3D 和视频类 AI 生成在 2023 年可能正处于草稿阶段,进入黄金时期或许在 2030 年。不可否认,文字与图片的 AI 生成确实走在了前面,而 3D 模型、视频和游戏生成仍在研发阶段。
若考虑到 AIGC 产业应用,如在制造业、建筑业等巨型垂直实体领域中,AIGC 的 C/Content 内容将不能仅停留在图片和文字的领域,而是需要进入信息更为丰富的三维领域。接下来,我们将从 AIGC 技术 -> 产品 -> 业务应用和价值实现环节探讨其发展路径。
1.AIGC 技术:从文字到图片
从大家对 ChatGPT 越来越多的测试中可以看到,ChatGPT 不仅能对语义进行解析和结构化,还能在此基础上用 NLP 自然语言处理做数据分析。

ChatGPT 对内容进行结构化处理和数据分析 - 佳格数据提供
事实上,以 Stable Diffusion 为首的一众 AI 画图框架或者平台,在去年更早的时候已经引起了轰动。虽然图片相对文字来说看上去信息含量要更为复杂,但是其技术成熟却要比以 ChatGPT 为首的文字生成来的更早一些,我们有必要从主流的开源框架 Stable Diffusion 为例,回顾一下这些图片 AIGC 框架是如何工作的。

Stable Diffusion 生成的图片, 已经有了比拟人类画家的能力
Stable Diffusion 主要有三个组成部分,每一个部分都有自己的神经网络。
1、CLIP 用于文字编码器:以文字作为输出的语义信息组成一个 77*768 的矩阵,CLIP 训练 AI 同时进行自然语言理解和计算机视觉分析。CLIP 可以决定图像和文字提示的对应程度,比如逐步把建筑的图像和 “建筑” 这个词完全匹配起来,而其能力训练是通过全球 40 多亿张带文字描述的图片实现的。

CLIP 的训练集
2、UNET 及调度程序:这就是大名鼎鼎的扩散模型主程序(来自 CompVis 和 Runway 团队于 2021 年 12 月提出的 “潜在扩散模型”(LDM / Latent Diffusion Model)),用于对噪声进行预测实现反向去噪的过程,进而实现图片在信息空间中的生成。如图片所示,染料扩散的过程就像从图片逐渐变成噪点的过程,而当研究人员对图片增加随机噪点让 AI 反向学习整体过程,而后就拥有了一套从信息空间噪点图反向生成图片的模型。

Diffusion 模型反向去噪过程
用通俗的例子解释,如果在清水里随机滴入一些染料,随着时间推移会得到如下图一样绚丽的形状。那么有没有一种方法,能够根据某一个特定时间特定的状态,反向推出初始的染料用量、顺序、滴入水缸的初始状态等信息呢?显然,如果不借用 AI 的方式几乎无法实现。
不同的染料滴入水中扩散出不同的形状
3、信息空间到真实图片空间的解码器:即把信息空间中的矩阵信息转换为肉眼可见的 RGB 图片。想象一下我们与人交流的过程,听到的声音信号转换为大脑能理解的文字信号存储在脑中,这个过程称之为编码。如果尝试把文字信号通过某种语言表达出来,这个过程可以称为解码 —— 这里的表达方式可以是任意的语言,每种语言对应不同的解码器,解码只是一种表达方式,本质还是基于人类脑海中对于某件事情的描述与理解。

StableDiffusion 从输入到输出全流程解读
正是有了这几个关键技术步骤的串联,Stable Diffusion 成功创建了一个无所不能的 AI 作图机器人,不仅能理解语义,将其转化为信息空间的信息流,还能够在信息空间中通过模拟降噪创作,通过解码器还原成肉眼可见的图片,这一充满科幻色彩的过程放在 AI 不存在的世界来看,堪称神迹。
2.AIGC 技术:从图片到 3D 模型
图片生成已经取得了突破性的效果,但如果这些成果能够进一步优化应用到更多领域,将有可能实现更大价值。我们也看到一些细分领域中的探索成果,比如经由对场景的理解,通过不同的数据集加入和调参,可以实现对图片生成更好的控制,而不仅是通过文字的不断试错来获得更优结果。
2.1 设计意向图生成
2019 年初,用 GANs 生成的「这个 XX 不存在」系列在海外获得大量关注,在国内我们也看到企业推出了在细分领域的成果。而该团队也于 22 年 8 月实验性的在手机端推出了「AI 创意库」,只需要输入一句话,对话机器人就能在一分钟内快速理解语义,生成多张效果细腻贴近建筑概念方案的意向图。在此之上,更是可以通过输入一张已有的图片,修改部分描述的关键字,「AI 创意库」即可生成一系列的衍生图片,辅助设计师在日常创作中寻找灵感。

左图:小库「AI 创意库」生成,触发语句 Louis Kahn 风格,依山傍水的小型博物馆;右图:小库「AI 创意库」生成,基于左图 Louis Kahn 风格图片,完成风格切换至 Le Corbusier
为了使得「AI 创意库」的效果更优,团队做了一些新的探索:由于已有的算法和模型更多聚集在通用互联网素材上,建筑相关的图片、形容及风格的数据储备在专业程度显然是不够的。这里采取了一种针对建筑相关词汇的特殊标识,组成一个微调的先验数据集并将该数据集融合训练,实现模型增强。通过建筑专业领域增强的新模型,形成了面向建筑行业专属的 AI 创意库,针对建筑类描述短句,测试集优品率相比原有模型提升了 13.6% 之多。
Google Dreambooth Fine-Tuning 算法示意
举个例子,当输入一张博物馆图片及一个词汇 "Zaha Hadid(过世的全球著名女建筑师)" 的时候,模型能够理解需要将博物馆的建筑风格或特征往 Zaha Hadid 的作品靠拢,而不是在博物馆中增加一个 Zaha Hadid 的人物或画像,抑或是在 AI 世界里创作一个 Zaha Hadid 的卡通画像 —— 这往往是通用模型会返回的结果之一。

经过微调后的建筑模型,小库「AI 创意库」能充分理解 “Zaha Hadid” 这个特殊词汇隐含意思
2.2 3D 模型生成
二维的图片虽然精彩,但在产业应用中暂时还只是停留在 “意向图库” 的作用,未来如果要成为可以精准表达设计的成果,需要向 3D 和更高信息维度去迈进。
在 2020 年 AIGC 没有现在这么成熟的时候,上述团队就在探索如何用 AI 生成 3D 模型,并在同济大学 DigitalFUTURES 工作坊教学中,公开了其在研发中的从图形生成图像进一步生成模型的算法,能看到当时的模型效果并不太理想,有价值的是实现了图形 - 图像 - 模型的联动。

2020 同济大学 DigitalFUTURES 工作坊小库教学团队成果,手绘图形生成图像进而生成模型
第二年在同济大学 DigitalFUTURES 工作坊教学中,该团队发布了一种通过 GANs 学习卫星图与真实三维模型之间关系,将卫星图生成为真实三维模型的算法。该算法通过对卫星图上不同的图层元素进行特征学习,能大致复原出卫星图所对应的主要物体三维拉伸形体,预测不同物体投影所对应的原物体高度。当然,这种方法还存在一定的缺陷,只能在卫星图场景中使用,难以积累其他场景中同类图片与三维形体之间的关系;其次是还原的三维形体只能粗略预测高度,其他细节需要通过算法重新生成,与真实的三维模型存在较大误差,只能用于项目早期研判使用,应用场景有限。

城市三维模型分层特征提取训练示意图

2021 同济大学 DigitalFUTURES 工作坊小库教学团队成果,基于 GANS 的卫星图重建三维模型
得益于 AIGC 算法的爆发、3D 生成算法的日益成熟,我们也看到垂直类 AI 企业开始吸收更多先进的技术与思路改善其模型,并在 3D-AIGC 的路线上有了一些新的尝试方向。例如 OPENAI 推出了 Point-E 框架,该框架可以将任意二维图片通过算法预测为点云,进而通过点云去预测三维物件。
PointE 框架全过程示意图
但是模型生成的质量依然有一定的局限,而模型的不可用主要体现在三维形体还原难、材质整体缺失、生成的模型精度不达标等方面。
当然我们能理解当前的技术瓶颈,如果把目标定的稍微低一点,选择从三维建模软件中生成的简单形体、做二维的截图在 point-e 模型中重建,会意外地发现其效果比以上测试更佳,但也仍局限在 “初步草稿” 的范畴。这与训练集有很大的关联性,通过三维建模软件生成各个视角的二维视图是该模型最易获取训练数据的方法之一。
综上来看,从文字 -> 图片 -> 点云 -> 三维物体的技术路线固然令人惊叹,但如果要应用在产业领域,还有很多工作需要 AI 科学家们去做。
然而,是否只有这一条技术路线去实现三维模型的生成?
3 垂直领域 AIGC 应用新思路
在泛领域的大模型研发上以 OpenAI 为首的厂商,包括 Nvidia 和 Google 等巨头也在纷纷推出属于自己自己的通用型 3D-AIGC 框架,遗憾的是目前还处在一个早期阶段。对于垂直实体产业来说,落地应用显然还有很长的路要走。
从全球范围来看,在 3D 模型的生成领域除了泛领域大模型外,部分垂直产业也在探索 AIGC 如何应用落地。比如西门子在引擎的设计和制造中针对生成的模型进行方针模拟和进一步优化,最终通过3D打印实体,实现了3D模型生成现成果交付和业务闭环。

西门子通过生成式算法实现引擎的设计和模拟
这样的成果的实现,有赖于在产业逻辑下的底层业务内容及其数据标准的不断迭代。
按照 ISO/ IEC 给出对内容的数字标准定义 SMART(Standards Machine Applicable, Readable and Transferable 机器可开、可读和可交互标准):L1 级为纸质文本,没有机器交互可能;L2 级为开放数字格式,机器交互性很低;L3 级为机器可读文档,但机器无法理解检索的结果与内容;L4 级为机器可读内容,可做语义交互但机器无法理解上下文的逻辑关系;L5 级,机器可交互内容,可实现自动识别、自动生成等智能属性。
在产业领域中,目前广泛应用 L3 级信息化内容,正在发展 L4 级数字化内容,而 L5 级智能化是工业 4.0 和智能制造的核心基础。因此,生成 L4 级以上机器可读内容,特别是生成 L5 级智能化内容,是未来 AIGC 的方向。

ISO/IEC SMART 数字标准《中国工程科学》2021 年第 23 卷第 6 期《标准数字化发展现状及趋势研究》刘曦泽、王益谊、杜晓燕、李佳、车迪

参考资料:

  • The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.
  • Robin Rombach, Adreas Blattmann, etal. High-Resolution Image Synthesis with Latent Diffusion Model (CVPR 2022 Oral)
  • Nataniel Ruiz, etal. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (2022)
  • Alex Nichol, Jun H, etal. Point-E: A System for Generating 3D Point Clouds from Complex Prompts(2022)
  • 刘曦泽、王益谊、杜晓燕、李佳、车迪等:ISO/IEC SMART数字标准《中国工程科学》2021年第23卷第6期《标准数字化发展现状及趋势研究》
  • 《中国各行业数字化水平》-麦肯锡全球研究院




💻💻💻

温馨提示

因微信公众号又改版了,只有被添加了星标或最常打开的公众号,才会在你的前排出现并推送封面。推送机制的变化可能会导致我们与你错过,如果不想和我们错过,欢迎大家在公众号页面添加星标(如下示意),每周准时相见!


这些文章也好看





点击“在看”,常相见

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT带飞英伟达股价/ 爱奇艺首次实现全年盈利/ AI作图被判无版权…今日更多新鲜事在此ChatGPT带来多余人口,怎么办?直播预告丨少儿妇科肿瘤发病率增高,防患未然我们能做些什么?被ChatGPT带热的最新技术岗:无需编码,年薪超200万ChatGPT带来的不是失业潮,是4天工作制!ChatGPT带来的巨大范式转移,意味着什么|中企荐读被ChatGPT带飞的AIGC,能为垂直产业做些什么?硬与软:ChatGPT带给中国科技行业的启示孟晚舟将首次出任华为轮值董事长/ 百度All in类ChatGPT项目/ 知乎因ChatGPT大涨50%…今日更多新鲜事在此医院爆满、药物短缺,面对疫情,我们可以为老年人和小孩等群体做些什么?李承鹏致2022一封信:这场战争输定了,因为我们敬礼敬得太好回国之旅,爸爸的手机被GPT带飞的In-Context Learning发展现状如何?这篇综述梳理明白了集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布洗碗ChatGPT带动下的AI产业链发展趋势ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇ChatGPT带来最大教育挑战:未来30年,要么掌控AI,要么成为「奴隶」ChatGPT带来变革式影响前,需实现三大突破面对世界范围内的“男孩危机”,我们能做些什么?正在直播丨少儿妇科肿瘤发病率增高,防患未然我们能做些什么?第一份工资ChatGPT带来的启发 - 现在虽时兴公派留俄,但英语比任何时候都重要停止内耗!Google和DeepMind被ChatGPT逼急了,决定合作打败GPT-4ChatGPT引领AIGC!Lehigh最新《AI生成内容》全面综述,44页详述GAN到ChatGPT发展历程中外ChatGPT差几年?AIGC产业全景报告暨AIGC 50启动寻找答案被ChatGPT带飞的AIGC如何在中国落地?量子位邀你共同参与中国AIGC产业峰会ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!台湾问题在美国渐成“显学”,中国当做些什么?对我们而言,ChatGPT带来的影响和机会是什么?万字圆桌实录:ChatGPT背后的AIGC,将生成怎样的浪潮?AIGC能为这个世界创造什么?小冰徐元春:解决问题、提升效率、创造场景 | 中国AIGC产业峰会ChatGPT带火,这一概念再迎风口!大宝家的猫狗们很多人担心被ChatGPT取代,我们关心ChatGPT的歧视与遮蔽
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。