2023年AI技术科普:算法、算力、数据及应用
大模型是 AI 开发的新范式,是人工智能迈向通用智能的里程碑:大模型指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型,本质依旧是基于统计学的语言模型,只不过“突现能力”赋予其强大的推理能力。大模型的训练和推理都会用到 AI 芯片的算力支持,在数据和算法相同情况下,算力是大模型发展的关键,是人工智能时代的“石油”。
1. 算法:大模型——人工智能迈向通用智能的里程碑
大模型就是 Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。大模型兼具“大规模”和“预训练”两种属性,面向实际任务建模前需在海量通用数据上进行预先训练,能大幅提升人工智能的泛化性、通用性、实用性,是人工智能迈向通用智能的里程碑技术。
大模型的本质依旧是基于统计学的语言模型,“突现能力”赋予其强大的推理能力。当前几乎所有参数规模超过千亿的大语言模型都采取 GPT 模式。近些年来,大型语言模型研究的发展主要有三条技术路线:Bert 模式、GPT 模式以及混合模式。Bert 模式适用于理解类、做理解类、某个场景的具体任务,专而轻,2019 年后基本上就没有什么标志性的新模型出现;混合模式大部分则是由国内采用;多数主流大语言模型走的还是 GPT 模式,2022 年底在 GPT-3.5 的基础上产生了ChatGPT,GPT 技术路线愈发趋于繁荣。
GPT4 作为人工智能领域最先进的语言模型,在如下四个方面有较大的改进。
1)多模态:GPT4 可以接受文本和图像形式的 prompt,在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等);
2)多语言:在测试的 26种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla,PaLM)的英语语言性能;
3)“记忆力”:GPT-4 的最大 token 数为 32,768,即 2^15,相当于大约64,000 个单词或 50页的文字,远超 GPT-3.5 和旧版 ChatGPT 的 4,096 个 token;
4)个性化:GPT-4 比 GPT-3.5 更原生地集成了可控性,用户将能够将“具有固定冗长、语气和风格的经典 ChatGPT 个性”更改为更适合他们需要的东西。
2. 算力:AI 训练的基础设施
大模型算力成本主要分为初始训练成本和后续运营成本。
初始训练:根据 openAI 官网数据,每个 token(token 是服务端生成的一串字符串,以作客户端进行请求的一个令牌)的训练成本通常约为 6N FLOPS(FLOPS 指每秒浮点运算次数,理解为计算速度,可以用来衡量硬件的性能),其中 N 是 LLM(大型语言模型)的参数数量。1750 亿参数模型的 GPT-3 是在 3000 亿 token 上进行训练的。根据openAI 官网数据,在训练过程中,模型的 FLOPS 利用率为 46.2%。我们假设训练时间为 1 个月,采用英伟达 A100 进行训练计算(峰值计算能力为 312 TFLOPS FP16/FP32),则测算结果为需要 843 颗英伟达 A100 芯片。
运营(推理)成本:运营阶段所需算力量与使用者数量紧密相关。根据 openAI 官网数据,每个token 的推理成本通常约为 2N FLOPS,其中 N 是 LLM 的参数数量。根据openAI 官网数据,在训练过程中,模型的 FLOPS 利用率为 21.3%。同样采用英伟达 A100进行推理计算(峰值计算能力为 312 TFLOPS FP16/FP32)。我们假设 GPT-3 每日 5000万活跃用户,每个用户提 10 个问题,每个问题回答 400 字,则测算结果为需要 16255颗英伟达 A100 芯片。
GPT-4 为多模态大模型,对算力要求相比 GPT-3 会提升 10 倍。GPT-4 的收费是 8k context 为$0.03/1k token,是 GPT-3.5-turbo 收费的 15 倍($0.002 / 1K tokens),因此我们推断GPT-4 的参数量是 GPT-3 的 10 倍以上,预计 GPT-4 的算力需求是 GPT-3 的 10 倍以上。
国产大模型有望带动国内新增 A100 出货量超 200 万颗,使得中国算力市场空间增加 2 倍以上。我们假设国内百度,华为,阿里,腾讯,字节等前 10 位头部大厂都会发布自己的大模型。
加速卡国产化率较低,美国制裁加速。根据 IDC 数据,2021 年,中国加速卡市场中 Nvidia 占据超过 80%市场份额。
英伟达推出中国特供版 A800,算力与 A100 基本一致。2022 年 11 月 8 日,英伟达推出 A800 GPU,将是面向中国客户的 A100 GPU 的替代产品。A800 符合美国政府关于减少出口管制的明确测试,并且不能通过编程来超过它。A800 GPU 在算力上与 A100 保持一致,但增加了 40GB显存的 PCIe 版本,但在 NVLink 互联速度上,A800 相较于A100 下降了 200GB/s 的速度。同时,A800 80GB SXM 版本目前已经不支持 16 块 GPU的成套系统,上限被限制在 8 块。总的来看,A800 能够满足国内市场需求,是 A100 的平替版本。
3. 数据:AI 发展的驱动力
数据资源是 AI 产业发展的重要驱动力之一。数据集作为数据资源的核心组成部分,是指经过专业化设计、采集、清洗、标注和管理,生产出来的专供人工智能算法模型训练的数据。
大模型的训练数据主要来自于维基百科、书籍、期刊、Reddit 社交新闻站点、Common Crawl和其他数据集。OpenAI 虽没有直接公开 ChatGPT 的相关训练数据来源和细节,但可以从近些年业界公布过的其他大模型的训练数据推测出 ChatGPT 的训练数据来源,近几年大模型训练采用的数据来源基本类似。国内大模型的数据来源和自身优势业务有较强相关性,如百度文心一言大模型的来源主要基于互联网公开数据,包括网页、搜索、图片、语音日均调用数据,以及知识图谱等。
GPT4 依靠大量多模态数据训练。GPT4 是一个大规模的多模态模型,相比于此前的语言生成模型,数据方面最大的改进之一就是突破纯文字的模态,增加了图像模态的输入,具有强大的图像理解能力,即在预练习阶段输入任意顺序的文本和图画,图画经过 Vision Encoder 向量化、文本经过普通 transformer 向量化,两者组成多模的句向量,练习目标仍为 next-word generation。根据腾讯云开发者推测,GPT4 训练数据中还额外增加了包含正误数学问题、强弱推理、矛盾一致陈述及各种意识形态的数据,数据量可能是 GPT3.5(45TB 数据)的 190 倍。
4. 应用:AI 的星辰大海
AI 时代已经来临,最大的市场将是被 AI 赋能的下游应用市场。如果说 AI 是第四次工业革命,那么正如前三次工业革命,最大的市场将是被 AI 赋能的下游应用市场。本轮革命性的产品 ChatGPT将极大地提升内容生产力,率先落地于 AIGC 领域,打开其产业的想象边界。文本生成、代码生成、图像生成以及智能客服将是能直接赋予给下游行业的能力,打开其产业想象的边界。
最直接的应用在内容创作领域。ChatGPT 的功能核心是基于文本的理解和分析,与内容创作行业趋同。ChatGPT 可用于创建新闻文章、博客文章甚至小说等内容,它可以生成原创且连贯的内容,为内容创作者节省时间和资源。整体生成式 AI 已用于创建图像,视频,3D 对象,Skyboxes等。这大大节省了创作时间,同时带来了多样的创作风格。
ChatGPT 解决了机器人的痛点。ChatGPT 开启了一种新的机器人范式,允许潜在的非技术型用户参与到回路之中,ChatGPT 可以为机器人场景生成代码。在没有任何微调的情况下,利用 LLM 的知识来控制不同的机器人动作,以完成各种任务。ChatGPT大大改善了机器人对指令的理解,并且不同于以前单一、明确的任务,机器人可以执行复合型的任务。
获取全店资料打包,后续免费获取全店所有新增和更新。
转载申明:转载本号文章请注明作者和来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“IT技术全店资料打包汇总(全)”电子书资料详情。
微信扫码关注该文公众号作者