2023人工智能行业研究报告(附下载)
导语
今日免费下载:2023人工智能行业研究报告
来源:华安证券
关注下方“浑水报告”公众号,后台回复“领取”,可获3次报告下载机会!
1 引言
ChatGPT 是由 OpenAI 研发的一种语言 AI 模型,使用上亿参数的大模型和海量语料库来生成语句,目前可以实现写诗、撰文、编码的功能。ChatGPT 广受用户欢迎,短短五天注册用户数量便超过 100 万,60 日月活破亿。产业界如微软、谷歌、百度也对于 openAI 及其竞品加大投入。
2 ChatGPT 引发人工智能投资热潮
2.1 ChatGPT 是什么?
ChatGPT 是由 OpenAI 研发的一种语言 AI 模型,使用海量语料库来生成与人类相似的反应。ChatGPT 是基于 GPT(generativef pretrained’ transformer)架构搭建的,主要用深度学习来生成连贯且具有意义的文字。这个模型使用了来自于网站、书本和社交媒体的海量文字数据,因此也为 ChatGPT 在保证准确性和细节的同时,提供了广泛的对话反馈。对话反馈是 ChatGPT 的核心功能之一,也使它成为了实现聊天机器人或其他对话型 AI 的理想技术。除对话功能外,ChatGPT 也具有实现各类语言相关任务的能力,包括文章精炼、翻译以及情绪分析等。以上各类语言能力在大规模的训练数据和升读学习架构下,使 ChatGPT 成为目前应用最为先进的语言模型之一。总体上,ChatGPT 标志着自然语言处理(NLP)和对话 AI 领域的一大步,其高质 量文字产出能力在商业、研究和开发活动中提高用户体验的方向上非常有应用价值的。
截至目前,GPT 已经经历了如下演化:1. GPT-1: 第一代 GPT 语言模型,发布于 2018 年。它有 1.17 亿个参数,使用网页的文字数据进行训练。2. GPT-2: 发布于 2019 年,具有 15 亿个参数,使用的网页文字数据量也远大于前 一代。它已经可以生成高质量的文字,甚至完成翻译、精炼文字等简单任务。3. GPT-3: 发布于 2020 年,具有 1750 亿个参数,使用网页以及其他来源的文字进行训练。它已经可以进行担任各类任务,被认为是语言模型领域的显著突破。
2.2 ChatGPT 技术和传统的 AI 有什么区别?
相比传统 AI 算法,GPT 模型的区别在于通过海量参数,进一步提升了模型的精确度。初代的 GPT 模型参数是 1.17 亿,而 GPT2 的模型有 15 亿个参数,参数增加了 10 倍之多。第三代的 GPT3 模型,参数达到了 1750 亿,是 GPT2 参数的 100 倍。正是由于参数的指数级提升,使得模型的使用效果大幅提升。而此类参数上亿的模型,通常称 之为“大模型”。GPT 模型基于 Transformer 架构,这是一种由谷歌的 Vaswani 等人于 2017 年引入 的神经网络类型。Transformer 架构特别擅长对序列数据中的长距离依赖进行建模,这使其非常适合自然语言处理任务。为了训练 GPT 模型,OpenAI 使用了来自互联网的大量文本数据,包括书籍、文章和网站。该模型使用一种称为无监督学习的技术进行训练,这意味着它学会了在没有人 类监督的情况下预测文本序列中的下一个单词。GPT 模型能够生成连贯和语法正确的文本,已被用于广泛的自然语言处理任务,包括语言翻译、文本补全和文本生成。
Transformer 模型是一种用于自然语言处理的神经网络模型。与传统的循环神经网 络(RNN)不同,Transformer 模型使用自注意力机制(self-attention)来处理输入序列中不同位置之间的依赖关系。Transformer 模型由编码器和解码器两部分组成。编码器将输入序列中的每个单词 表示为一个向量,并通过多层自注意力和前馈神经网络来对输入序列进行编码。解码器则使用相同的自注意力和前馈神经网络来生成输出序列。在自注意力机制中,模型根据输入序列中的所有单词计算出每个单词与其他单词的 相关性,然后使用这些相关性加权求和得到每个单词的表示向量。这种方法使得模型能够处理长序列和跨越序列中的依赖关系,从而提高了模型的性能。Transformer 模型已经在自然语言处理领域取得了很好的效果,包括机器翻译、文本摘要和问答系统等任务。它是目前最先进的语言模型之一,也是开发其他自然语言处理模型的基础。
2.3 ChatGPT 将给行业带来哪些机会?
相比其他此前的人工智能技术与进展,ChatGPT 之所以引发关注,主要总结为以下几点:1) 从使用效果上,交流通畅,同时能够实现写诗、撰文、编码的功能。2 月 1 日,以色列总统艾萨克·赫尔佐格(Isaac Herzog)发表了部分由人工智能(AI)撰写的演讲;2) 受用户欢迎。短短 5 天,注册用户数就超过 100 万。60 天月活破亿。3)商业模式产生变化。2023 年 2 月 2 日,美国人工智能(AI)公司 OpenAI 发布 ChatGPT 试点订阅计划。4) 产业界也表现出对 Chatgpt 的关注。表现为:1)1 月 23 日,微软宣布向 ChatGPT 开发者 OpenAI 追加投资数十亿美元;2)谷歌 3 亿美元投资 Chatgpt 竞品。3)百度将于 3 月发布类似 Chatgpt 的 AI 服务。由此带来相关产业链的大变革:
1) 语音识别与自然语言处理行业快速发展:人工智能,也即解决像人一样看、听、思考的问题。因此,按照此维度来划分,划分为计算机视觉、语音识别与自然语言处理及数据科学。早先,2020 年数据显示,计算机视觉占比约 56.6%;语音识别与自然语言处理占比约 35.6%。也即,在机器视觉领域的应用,相比自然语言处理,更为成熟,市场规模更大。但随着 ChatGPT 带来的投资热潮,与应用领域的不断丰富,音频与自然语言处理的整体行业规模,有望迅速增长。
2) 激活产业链:整个人工智能的产业链包括算力、数据、算法乃至下游应用。算力与网络:英伟达的研究表示,GPT-3 模型需要使用 512 颗 V100 显卡训练 7 个 月时间,或者使用 1024 颗 A100 芯片训练长达一个月的时间。随着各大科技厂商投入对大模型的研发,势必增加芯片、服务器等算力需求。同时,庞大的 AI 算力集群,又需要高带宽支撑数据传输。数据:数据采集、数据标注和数据质检是较为重要的三个环节。从自然数据源简单收集取得的原料数据并不能直接用于有效监督的深度学习算法训练,经过专业化采集、加工形成的训练数据集才能供深度学习算法等训练使用,由此带来数据服务需求。算法:相比传统 AI 模型,大模型的优势体现在:1)解决 AI 过于碎片化和多样化的问题;2)具备自监督学习功能,降低训练研发成本;3)摆脱结构变革桎梏,打开模型精度上限。对于大模型算法的研发、优化,亦是投入的重点。下游应用:产业界一直以来都在寻求人工智能的应用领域、商业模式突破。随着大模型使用、人工智能算法精度提升,下游应用的扩展可期。
3 数据要素资源基础,满足大模型训练需求
3.1 政策引导数据要素确权使用,扫清人工智能发展障碍
数据已成为五大核心生产要素之一。2020 年 4 月中共中央国务院《关于构建更加完善的要素市场化配置体制机制的意见》中发布。这是数据作为新型生产要素首次在中央顶层文件中提出。而后,2022 年 4 月国务院《关于加快建设全国统一大市场的意见》中,进一步提到 加快培育数据要素市场,建立数据资源产权相关基础制度。2022 年 12 月 9 日,财政部发布关于征求《企业数据资源相关会计处理暂行规定(征求意见稿)》意见的函,具体提出了企业数据资源相关会计、处理的方式方法,进一 步扫清了数据要素市场建立、数据资源交易的障碍。当前,2022 年 12 月发布《关于构建数据基础制度更好发挥数据要素作用的意见》,是数据要素体系建设中,顶层关键文件,扫除了未来人工智能发展中需要使用数据的障 碍:1)建立保障权益,合规使用的数据产权制度;2)建立合规高效的场内外结合的数据要素流通和交易制度。3)建立体现效率促进公平的数据要素收益分配制度。4)建立安全可控弹性包容的数据要素治理制度。
数字经济快速发展,数据要素成为重要战略资源。《“十四五”数字经济发展规划》中指出,数字经济是继农业经济、工业经济之后的主要经济形态。《规划》设定了到 2025 年实现数字经济核心产业增加值占 GDP 比重达到 10%的目标,涵盖数据要素市场、产业数字化、数字产业化、数字化公共服务、数字经济治理体系五个方面。从 2015 年至今,数字经济平均增速持续高于 GDP 增速,2021 年数字经济占 GDP 比重已经由 2015 年的 27%提升至 40%。
3.2 大数据管理能力需求提升
联网设备高增之下,流量增长不可避免。根据思科的《年度互联网报告》,到 2023 年,地球上的连网设备数量将是全球人口的大约三倍,从 2017 年的人均 2.4 台提升至 3.6 台。由于 IP 地址即网络地址+主机地址,网络站点所连接的 IP 数量也处于爆发的阶段。根据 IDC 的《中国物联网连接规模预测,2020-2025》,仅我国物联网 IP 连接量已在 2020 年达 45.3 亿,有望在 2025 年达到 102.7 亿,CAGR 为 17.8%。由于 IP 地址联网后即产生数据流量, IP 地址的数量增长即代表全网数据也将继续大增,对于现有的网络企业的承载能力提出了考验。根据思科的《年度互联网报告》,2022 年全球网络数据流量将达 799EB(1EB=十亿 GB),同比增长 21%。我们认为,数据流量的增长,有望直接带动大数据产业的发展,而其中稳定优质响应快的数据库性价比更高。
全球大数据市场存量巨大,软件市场占比较高且增速快。根据 Wikibon 及沙利文研究数据,全球大数据市场规模有望在 2022 年达 718 亿美元,同比增速 11%;而其中全球大数据软件伟 286 亿美元,同比增速 18%,约占大数据市场规模的 40%。可以认为,软件市场在大数据市场中,占据较大地位,而由于其增速高于大数据市场的整体增速, 其占比还将进一步提升。
3.3 数据标注,是 AI 模型的基础
人工智能基础数据服务助力 AI 训练与调优,数据采集、数据标注和数据质检是较为重要的三个环节。从自然数据源简单收集取得的原料数据并不能直接用于有效监督的深度学习算法训练,经过专业化采集、加工形成的训练数据集才能供深度学习算法等训练使用,从某种程度上讲,数据决定了 AI 的落地程度,因此,基础数据服务应运而生。具体来看,基础数据的服务流程围绕着客户的展开,为 AI 模型训练提供可靠、可用的数据,其包含五个环节,分别是 1)数据库设计:训练数据集结构设计;2)数据采集:获 取原料数据;3)数据清洗:清洗残缺、重复或者错误的数据;4)数据标注:帮助机器 认识数据的特征;5)质检:各环节质量检测和控制。
市场标注行业市场规模不断扩大,图像类和语音类需求占比超八成。从市场规模来看,根据观研天下统计,2021 年我国数据标注行业市场规模为 43 亿元,2017 至 2029 年的 CAGR 为 23%;根据 IDC《2021 年中国人工智能基础数据服务市场研究报告》,预计中国 AI 基础数据服务市场规模将在 2025 年突破 120 亿元,近五年的 CAGR 达 47%。从市场收入结构来看,按数据类型划分,基础数据服务行业是市场需求可以分为图像类、语音类和自然语言处理类数据需求。根据观研天下统计,2021 年我国数据标注行业下游以图像类和语音类需求为主,二者合计占比达 86%,其中,图像类业务以智能驾驶与安防为主,语音类以中英大大语种、中国本土方言以及外国小语种为主。
3.4 相关标的
1) 星环科技:平台、数据库集一身的数据要素稀缺标的
专注于分布式数据库,技术水平全球领先。星环科技 2013 年成立于上海,是国内大数据管理软件领导者,已累计有超过 1,000 家终端用户,且产品已落地以下知名机构或其主要分支机构,金融行业包括中国银行、浦发银行、浙江农村商业联合银行等,政府领域包括上海市大数据中心等,能源行业包括中国石油、南方电网等,交通行业包括中国邮政集团、郑州地铁等,制造业包括湖南中烟等。公司在发展中经历了多个重要节 点:1)公司 2013 年成立,随即发布了大数据基础平台 TDH2.0 版本,并于次年推出 Inceptor 关系型分析引擎、Slipstream 实时计算引擎,实现数据湖、实时计算两大热点功能;2)2014 年公司被 Gartner 列入 Hadoop 的主流发行版列表;3)2017 年起,公司陆续发布新品,包括分析工具 Sophon、云产品 TDC、分布式分析数据库 ArgoDB 和 分布式交易数据库 KunDB。2022 年,公司已被 Gartner 评为图数据库管理的全球代表 厂商。
股权结构稳定,创始人保持控制权。发行人的控股股东、实际控制人为创始人孙元浩,主要理由如下:(1)截至本招股说明书签署日,孙元浩直接持有星环科技 12.3%的股份,为公司第一大股东,且在报告期内持续为发行人第一大股东。(2)孙元浩与范磊、 吕程、佘晖及赞星投资中心签署了《一致行动协议》,确认 自 2019 年 1 月 1 日起, 范磊、吕程、佘晖及赞星投资中心与孙元浩在发行人有关重大事项中保持一致行动,并 约定上述各方在无法达成一致意见时,为提高公司决策效率,在不损害孙元浩合法权益及保障公司整体利益的前提下,应以孙元浩的意见作为各方的最终共同意见。孙元浩担任执行事务合伙人的赞星投资中心持有公司 8.3%的股份,孙元浩之一致行动人范磊、吕程、佘晖分别持有公司 6.7%、1.7%、1.0%的股份。因此,孙元浩本人及通过《一致行动协议》合计控制公司 30.0%的股份。(3)报告期内,孙元浩一直担任发行人(及其前 身星环有限)的董事长及总经理,在发行人的董事会和日常管理决策中均能够产生重大影响。( 4)根据除孙元浩、范磊、吕程、佘晖及赞星投资中心以外的发行人其他股东的书面确认,各方均认可孙元浩于报告期内作为发行人的实际控制人。
2) 海天瑞声:人工智能基础数据服务提供商,产品矩阵不断丰富
自 2005 年成立以来,海天瑞声始终致力于为 AI 产业链上的各类机构提供算法模型开发训练所需的专业数据集,目前已发展为人工智能领域具备国际竞争力的国内领军企业。公司研发生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大 AI 核心领域,实现了标准化产品、定制化服务、相关应用服务的全覆盖,广泛应用于人机交互、智能家居、智能驾驶、智慧金融、智能安防、OCR 识别等多个应用场景。截至 2022 年 半年报,公司累计客户量达 695 家。
公司产品应用领域不断拓宽,下游客户丰富。从应用场景来看,公司产品的应用场 景覆盖了个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧金融、智慧交通、智慧城市、机器翻译、 智能问答、信息提取、情感分析、OCR 识别等多种应用场景。从下游客户来看,公司的客户为 AI 产业链上的各类机构,主要系:1)大型科技公司,阿里巴巴、腾讯、百度、 微软等;2)人工智能企业,科大讯飞、商汤科技、海康威视等;3)科研机构,如中国 科学院、清华大学等。目前,公司的产品和服务已经获得了阿里巴巴、腾讯百度、科大 讯飞、微软、清华大学等国内外客户的认可。
4 ChatGPT 带来的变革——大模型算法
4.1 大模型时代的引言:Double Descent(双下降)现象
随着深度神经网络的兴起,人工智能进入统计分类深度模型时代,这种模型比以往 的模型更加泛化,可以通过提取不同特征值应用于不同场景。但在 2018 年-2019 年, 双下降现象的发现打破了原有的人工智能发展格局。简而言之,以往的数学理论表明,随着参数增多、模型增大,过拟合导致模型的误差会先下降后上升,这使得找到精度最高误差最小的点成为模型调整的目标。而随着人工智能算法算力的不断发展,研究者发现如果继续不设上限的增大模型,模型误差会在升高后第二次降低,并且误差下降会随着模型的不断增大而降低,通俗而言模型越大,准确率越高。因此人工智能发展进入了大模型时代。
相比传统 AI 模型,大模型的优势体现在:1)解决 AI 过于碎片化和多样化的问题,极大提高模型的泛用性。应对不同场景时,AI 模型往往需要进行针对化的开发、调参、优化、迭代,需要耗费大量的人力成本,导致了 AI 手工作坊化。大模型采用“预训练+下游任务微调”的方式,首先从大量标 记或者未标记的数据中捕获信息,将信息存储到大量的参数中,再进行微调,极大提高模型的泛用性。2)具备自监督学习功能,降低训练研发成本。我们可以将自监督学习功能表观理 解为降低对数据标注的依赖,大量无标记数据能够被直接应用。这样一来,一方面降低 人工成本,另一方面,使得小样本训练成为可能。3)摆脱结构变革桎梏,打开模型精度上限。过去想要提升模型精度,主要依赖网络在结构上的变革。随着神经网络结构设计技术逐渐成熟并开始趋同,想要通过优化神经网络结构从而打破精度局限变得困难。而研究证明,更大的数据规模确实提高了模型的精度上限。
4.2 首要关键技术:Transformer 模型 GPT 模型利用
Transformer 模型作为特征提取器,是第一个引入 Transformer 的预 训练模型。传统的神经网络模型例如 RNN(循环神经网络)在实际训练过程中由于输入向量大小不一、且向量间存在相互影响关系导致模型训练结果效果较差。Transformer 模 型有三大技术突破解决了这个问题。首先 Transformer 模型的 Self-Attention(自注意力)机制使人工智能算法注意到输入向量中不同部分之间的相关性,从而大大提升了精准性。其次该模型采用属于无监督学习的自监督学习,无需标注数据,模型直接从无标签数据中自行学习一个特征提取器,大大提高了效率。最后,在做具体任务时,微调旨在利用其标注样本对预训练网络的参数进行调整。也可以针对具体任务设计一个新网络,把预训练的结果作为其输入,大大增加了其通用泛化能力。Transformer 模型的这些优点快速替代了传统的神经网络。
4.3 GPT 快速迭代,从 GPT1.0 迅速步入 3.5 时代
GPT:大型无监督语言模型,能够生产连贯的文本段落。GPT-1 采用无监督预训练和有监督微调,证明了 transformer 对学习词向量的强大能力,在 GPT-1 得到的词向量基础上进行下游任务的学习,能够让下游任务取得更好的泛化能力。与此同时,不足也较为明显,该模型在未经微调的任务上虽然有一定效果,但是其泛化能力远远低于经过微调的有监督任务,说明了 GPT-1 只是一个简单的领域专家,而非通用的语言学家。
GPT-2 为了解决这一问题采用了多任务模式,其目标旨在训练一个泛化能力更强的词向量模型,它并没有对 GPT-1 的网络进行过多的结构的创新与设计,只是使用了更多的网络参数和更大的数据集,GPT-2 的核心思想是当模型的容量非常大且数据量足够丰富时,仅仅靠训练语言模型的学习便可以完成其他有监督学习的任务。所以虽然它验证了通过海量数据和大量参数训练出来的词向量模型能够迁移到其它类别任务中而不需要额外的训练,但其任务表现并不好,还有大很提升空间。不过其表明了模型容量和数据量越大,其潜能越大。于是 GPT-3 纳入了海量参数:1750 亿参数量还有超大的 45TB 的训练数据。在大量的语言模型数据集中,GPT-3 超过了绝大多数方法。另外 GPT-3 在很多复杂的 NLP 任务中例如闭卷问答,模式解析,机器翻译等也很准确。除了这些传统的 NLP 任务, GPT-3 在一些其他的领域也取得了非常好的效果,例如进行数学加法,文章生成,编写代码等。
4.4 国内外 AI 大模型项目百舸争流
除了 GPT-3 模型外,各大公司正在孵化的大模型项目数量也相当可观。MT-NLG:微软英伟达强强联手,软硬结合引领行业新景。2021 年 10 月 11 日,微软和英伟达推出由 DeepSpeed 和 Megatron 驱动的 Megatron-Turing 自然语言生成模型(MT-NLG), 具有 5300 亿个参数。MT-NLG 的参数数量是当时该类型最大模型 的 3 倍,并且在广泛的自然语言任务中如阅读理解、常识推理、自然语言推理、词义消 歧等方面表现出较强的准确性。基于 105 层 transformer 的 MT-NLG 在多个方面方面 改进了当时最先进模型,并为大规模语言模型在模型规模和质量方面设置了新标准。硬件方面,模型训练是在基于 NVIDIA DGX SuperPOD 的 Selene 超级计算机上进行的,实现的系统吞吐量为:420 台 DGX A100 服务器上考虑了 5300 亿参数模型(批量大小为 1920 )的系统端到端吞吐量,迭代时间为 44 . 4 秒、GPU 113 万亿次/秒。
Switch Transformers:Google 推出的首个万亿级语言模型。相比 1750 亿参数的 GPT-3,谷歌 Switch Transformers 则直接将该数值拉升至 1.6 万亿,且相比于 OpenAI 在 GPT-3 里所使用的 Sparse Attention,需要用到稀疏算子而很难发挥 GPU、TPU 硬件性能的问题。Switch Transformer 不需要稀疏算子,可以更好的适应 GPU、TPU 等硬 件。
文心一言:百度集成 NLP 和 CV,多级体系覆盖诸多领域。2022 年 11 月 30 日, 百度集团在 WAVE SUMMIT+2022 深度学习开发者峰会带来了文心大模型的最新升级,包括新增 11 个大模型,大模型总量增至 36 个,构建起国内业界规模最大的产业大模型体系。在模型层,文心大模型涵盖基础大模型、任务大模型、行业大模型的三级体系;在工具与平台层升级了大模型开发套件、文心 API 和提供全流程开箱即用大模型能力的 EasyDL 和 BML 开发平台,有效降低应用门槛;新增产品与社区层,包括 AI 创作平台 “文心一格”、搜索系统“文心百中”和样谷社区,让更多人感受到 AI 大模型技术带来的新体验。截至目前,文心已累计发布 11 个行业大模型,涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等领域,加速推动行业的智能化转型升级。
除行业大模型外,百度目前新增了 5 个基础大模型和 1 个任务大模型,包括:知识增强轻量级大模型、跨模态理解大模型、跨模态生成大模型、文档智能大模型、单序列蛋白质结构预测大模型和代码大模型。其中,知识增强轻量级大模型 ERNIE 3.0 Tiny 具备优秀的泛化能力,同时相对于超大参数模型,推理速度提升数十倍到百倍,能够显著降低超大参数模型落地的成本。百度计划在 3 月完成文心一言的内部测试,然后向公众正式开放使用。
阿里 M6:出色的低碳低能耗属性。阿里巴巴达摩院在 2021 年开发出了超大规模中文多模态预训练模型 M6。目前,其参数已从万亿跃迁至 10 万亿,规模远超谷歌、微软此前发布的万亿级模型,成为全球最大的 AI 预训练模型。同时,M6 做到了业内极致的 低碳高效,使用 512 块 GPU 在 10 天内即训练出具有可用水平的 10 万亿模型。相比去年发布的大模型 GPT-3,M6 实现同等参数规模,能耗为其 1%。M6 的优势在于将大模 型所需算力压缩到极致,通过一系列技术突破,达摩院和阿里云只用了 480 块 GPU 就训练出了 M6,相比英伟达用 3072 块 GPU 训练万亿模型、谷歌用 2048 块 TPU 训练 1.6 万亿模型(1 TPU 约等于 2~3GPU),M6 省了超过八成算力,还将效率提升了近 11 倍。
商汤在 AIGC 的不同领域有多年布局,从文字,到图片,以及视频和动画的 AIGC,团队都从技术和产业长期投入,团队更多专注在视频的 AIGC,并叠加商汤自研的类似于 GPT 的生成式内容进行短视频等创作。基于商汤的 SenseCoreAI 大装置,在视觉大模型领域,商汤已训练和构建了超过 300 亿量级模型参数超大基模型,可以有效支持相关应用。
——END——
海量报告,点击【报告搜一搜】小程序 免费下载
【PS:点击详情可查看内容】
点击微信小程序👉:"报告搜一搜";免费下载各行业研究报告pdf和word、可视数据、学习资料。提供研究报告、市场研究报告、行业报告、行业研究报告、调研报告、市场调查报告...
微信扫码关注该文公众号作者