Redian新闻
>
2023年AI技术科普:算法、算力、数据及应用

2023年AI技术科普:算法、算力、数据及应用

公众号新闻

大模型是 AI 开发的新范式,是人工智能迈向通用智能的里程碑:大模型指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型,本质依旧是基于统计学的语言模型,只不过“突现能力”赋予其强大的推理能力。大模型的训练和推理都会用到 AI 芯片的算力支持,在数据和算法相同情况下,算力是大模型发展的关键,是人工智能时代的“石油”。

下载链接:
AI科普报告:围绕算法、算力、数据和应用(2023)

1. 算法:大模型——人工智能迈向通用智能的里程碑

大模型就是 Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。大模型兼具“大规模”和“预训练”两种属性,面向实际任务建模前需在海量通用数据上进行预先训练,能大幅提升人工智能的泛化性、通用性、实用性,是人工智能迈向通用智能的里程碑技术。

大模型的本质依旧是基于统计学的语言模型,“突现能力”赋予其强大的推理能力。当前几乎所有参数规模超过千亿的大语言模型都采取 GPT 模式。近些年来,大型语言模型研究的发展主要有三条技术路线:Bert 模式、GPT 模式以及混合模式。Bert 模式适用于理解类、做理解类、某个场景的具体任务,专而轻,2019 年后基本上就没有什么标志性的新模型出现;混合模式大部分则是由国内采用;多数主流大语言模型走的还是 GPT 模式,2022 年底在 GPT-3.5 的基础上产生了ChatGPTGPT 技术路线愈发趋于繁荣。

GPT4 作为人工智能领域最先进的语言模型,在如下四个方面有较大的改进

1多模态GPT4 可以接受文本和图像形式的 prompt,在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等);

2多语言:在测试的 26种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(ChinchillaPaLM)的英语语言性能;

3)“记忆力”GPT-4 的最大 token 数为 32,768,即 2^15,相当于大约64,000 个单词或 50页的文字,远超 GPT-3.5 和旧版 ChatGPT 的 4,096 个 token

4个性化GPT-4 比 GPT-3.5 更原生地集成了可控性,用户将能够将“具有固定冗长、语气和风格的经典 ChatGPT 个性”更改为更适合他们需要的东西。

2. 算力:AI 训练的基础设施

大模型算力成本主要分为初始训练成本和后续运营成本。

初始训练:根据 openAI 官网数据,每个 tokentoken 是服务端生成的一串字符串,以作客户端进行请求的一个令牌)的训练成本通常约为 6N FLOPSFLOPS 指每秒浮点运算次数,理解为计算速度,可以用来衡量硬件的性能),其中 是 LLM(大型语言模型)的参数数量。1750 亿参数模型的 GPT-3 是在 3000 亿 token 上进行训练的。根据openAI 官网数据,在训练过程中,模型的 FLOPS 利用率为 46.2%。我们假设训练时间为 个月,采用英伟达 A100 进行训练计算(峰值计算能力为 312 TFLOPS FP16/FP32),则测算结果为需要 843 颗英伟达 A100 芯片。

运营(推理)成本:运营阶段所需算力量与使用者数量紧密相关。根据 openAI 官网数据,每个token 的推理成本通常约为 2N FLOPS,其中 是 LLM 的参数数量。根据openAI 官网数据,在训练过程中,模型的 FLOPS 利用率为 21.3%。同样采用英伟达 A100进行推理计算(峰值计算能力为 312 TFLOPS FP16/FP32)。我们假设 GPT-3 每日 5000万活跃用户,每个用户提 10 个问题,每个问题回答 400 字,则测算结果为需要 16255颗英伟达 A100 芯片。

GPT-4 为多模态大模型,对算力要求相比 GPT-3 会提升 10 倍。GPT-4 的收费是 8k context $0.03/1k token,是 GPT-3.5-turbo 收费的 15 倍($0.002 / 1K tokens),因此我们推断GPT-4 的参数量是 GPT-3 的 10 倍以上,预计 GPT-4 的算力需求是 GPT-3 的 10 以上。

国产大模型有望带动国内新增 A100 出货量超 200 万颗,使得中国算力市场空间增加 倍以上。我们假设国内百度,华为,阿里,腾讯,字节等前 10 位头部大厂都会发布自己的大模型。

加速卡国产化率较低,美国制裁加速。根据 IDC 数据,2021 年,中国加速卡市场中 Nvidia 占据超过 80%市场份额。

英伟达推出中国特供版 A800,算力与 A100 基本一致。2022 年 11 月 日,英伟达推出 A800 GPU,将是面向中国客户的 A100 GPU 的替代产品。A800 符合美国政府关于减少出口管制的明确测试,并且不能通过编程来超过它。A800 GPU 在算力上与 A100 保持一致,但增加了 40GB显存的 PCIe 版本,但在 NVLink 互联速度上,A800 相较于A100 下降了 200GB/s 的速度。同时,A800 80GB SXM 版本目前已经不支持 16 块 GPU的成套系统,上限被限制在 块。总的来看,A800 能够满足国内市场需求,是 A100 平替版本。

3. 数据:AI 发展的驱动力

数据资源是 AI 产业发展的重要驱动力之一。数据集作为数据资源的核心组成部分,是指经过专业化设计、采集、清洗、标注和管理,生产出来的专供人工智能算法模型训练的数据。

大模型的训练数据主要来自于维基百科、书籍、期刊、Reddit 社交新闻站点、Common Crawl和其他数据集。OpenAI 虽没有直接公开 ChatGPT 的相关训练数据来源和细节,但可以从近些年业界公布过的其他大模型的训练数据推测出 ChatGPT 的训练数据来源,近几年大模型训练采用的数据来源基本类似。国内大模型的数据来源和自身优势业务有较强相关性,如百度文心一言大模型的来源主要基于互联网公开数据,包括网页、搜索、图片、语音日均调用数据,以及知识图谱等。

GPT4 依靠大量多模态数据训练。GPT4 是一个大规模的多模态模型,相比于此前的语言生成模型,数据方面最大的改进之一就是突破纯文字的模态,增加了图像模态的输入,具有强大的图像理解能力,即在预练习阶段输入任意顺序的文本和图画,图画经过 Vision Encoder 向量化、文本经过普通 transformer 向量化,两者组成多模的句向量,练习目标仍为 next-word generation。根据腾讯云开发者推测,GPT4 训练数据中还额外增加了包含正误数学问题、强弱推理、矛盾一致陈述及各种意识形态的数据,数据量可能是 GPT3.545TB 数据)的 190 倍。

4. 应用:AI 的星辰大海

AI 时代已经来临,最大的市场将是被 AI 赋能的下游应用市场。如果说 AI 是第四次工业革命,那么正如前三次工业革命,最大的市场将是被 AI 赋能的下游应用市场。本轮革命性的产品 ChatGPT将极大地提升内容生产力,率先落地于 AIGC 领域,打开其产业的想象边界。文本生成、代码生成、图像生成以及智能客服将是能直接赋予给下游行业的能力,打开其产业想象的边界。

最直接的应用在内容创作领域。ChatGPT 的功能核心是基于文本的理解和分析,与内容创作行业趋同。ChatGPT 可用于创建新闻文章、博客文章甚至小说等内容,它可以生成原创且连贯的内容,为内容创作者节省时间和资源。整体生成式 AI 已用于创建图像,视频,3D 对象,Skyboxes等。这大大节省了创作时间,同时带来了多样的创作风格。

ChatGPT 解决了机器人的痛点。ChatGPT 开启了一种新的机器人范式,允许潜在的非技术型用户参与到回路之中,ChatGPT 可以为机器人场景生成代码。在没有任何微调的情况下,利用 LLM 的知识来控制不同的机器人动作,以完成各种任务。ChatGPT大大改善了机器人对指令的理解,并且不同于以前单一、明确的任务,机器人可以执行复合型的任务。

ChatGPT 在芯片设计领域的应用。传统的芯片设计强烈依赖模板而忽视了大量可以复用的优秀数据,同时数据量大导致 ChatGPT 泛化性更好。此外芯片硬件模块相对单一,有一些成熟范式,芯片设计代码复杂但人工不足,这些都与 ChatGPT 有很好的互补。AI 使得芯片开发成本降低、周期缩短,具备足够多训练数据和 AI 能力的芯片设计公司竞争优势可能会扩大。
       ​​​
下载链接:
AI科普报告:围绕算法、算力、数据和应用(2023)
电信网络AI技术白皮书

多模态AI研究框架(2023)

大模型算力需求驱动AI服务器行业高景气(2023)

“机器人+” 系列:机器人研究框架(2023)

《70+篇半导体行业“研究框架”合集》
183份重磅ChatGPT专业报告
《人工智能AI大模型技术合集》


获取全店资料打包,后续免费获取全店所有新增和更新。

全店铺技术资料打包(全)



转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取“IT技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
波士顿清华校友会「2023年」年会 - 学术科研专场!潞晨科技招聘:校招与社招全职,NLP算法、AI系统/AI框架研发、云计算研发等《炸北溪》电影中所有人物介绍李彦宏霸气喊话4万员工:算力可以买来,创新能力买不来任正非最新讲话谈及ChatGPT、天才少年、算法、人类社会变化邮轮入门谈 下篇求职干货 | 京东 2023春招补录已开!海归求职:数据(数据分析、数据科学、工程)我带娃锻炼脑力、数学敏感力的绝招!不刷题,不死记硬背,玩玩游戏就能学好数学五四青年节李彦宏内部演讲:算力可以买来,创新能力买不来关于RoCE技术3种实现及应用百度李彦宏:算力能买但创新不能买,与ChatGPT的差距取决于这些因素清华大学:新城市科学:技术、数据、变革与应用工信部发布重要数据和核心数据识别、数据出境安全管理典型案例大语言模型技术进展及应用 | 5月25日TF105报名国务院2023年度立法工作计划:人工智能法、网络数据安全管理条例来了!怎么开始学佛(六)屠龙之技如何理解当前的经济数据及市场调整?突破室温超导技术科学家回应质疑/GPT-4或下周发布/小鹏回应多名高管离职文心一言算力从哪来?自家最大智算中心:算力规模4EFLOPS,base李彦宏老家三维声技术在赛事直播中的应用,TWS耳机中音频技术落地实践,通话降噪算法落地应用及挑战利奥塔与后现代技术科学辟谷十四天,记录一下。李彦宏霸气喊话:算力可以买来,创新能力买不来青年节李彦宏内部演讲致敬技术创新:算力可以买来,创新能力买不来求职干货 | 拼多多 2023春招已开!海归求职:数据(数据分析、数据科学、工程)元宇宙技术发展动向(2):算力倍增加速元宇宙迭代进阶李彦宏谈AI:算力可以买,创新能力买不来数字孪生卫星:概念、关键技术及应用燧原科技创新研究院院长、首席科学家姚建国教授:构建基础算力底座,推动国产算力发展|WISE2023颠覆AIGC产业发展峰会《金融博览》│一张明代借据及其背后的故事12家独角兽,180+岗位,研发、算法、产品、运营,多种岗位等你投递|红利招聘·独角兽场①【庭院养蜂】蜜蜂买回家了,怎样安装?浙商证券:算力芯片研究框架(2023)推荐 | 波士顿清华校友会「2023年」年会 - 学术科研专场!两会 | 全国政协委员王坚:算力是衡量经济发展的新尺度
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。