Redian新闻
>
人工智能模型能有多大?

人工智能模型能有多大?

公众号新闻

点击蓝字 关注我们

SUBSCRIBE to US



大型语言模型——可以进行类似人类聊天的人工智能系统——最近成为了新闻热点。毫无疑问,它们很强大,而且非常全面。


但人工智能模型究竟能有多大?这个问题的答案为了解人工智能语言模型的发展及其潜在应用提供了一个迷人的窗口。


两种测量方法


当专家们谈论人工智能的进步时,他们通常关注模型大小的两个方面:用于训练模型的数据量和模型包含的参数数量。


例如,备受讨论的ChatGPT的前身GPT-3是在近45 TB的文本数据上训练的,具有超过1750亿个参数。其他人工智能模型越来越大,据说大公司正在开发超过1.6万亿参数的模型。


但这意味着什么?让我们对它进行分解,首先看一看参数是什么。


参数是人工智能模型用于根据所看到的数据生成输出的值或变量。例如,在像GPT-3这样的语言模型的情况下,输出是文本。


IEEE会员Yale Fox表示:“尽管它们看起来真的很神奇,但人们更容易将(自然语言模型)视为高度复杂的自动完成函数。你以问题的形式提供输入,通常称为提示。然后模型会‘自动完成’你的答案。”


输出基于先前识别的模式。对于大型语言模型,自动完成函数要复杂得多,因为模型已经在更多的数据上进行了训练,并且具有更多的参数。


Fox说:“参数的数量会影响输出的多样性;使用的参数越多,输出的重复性就越小。”


这就引出了第二个问题。45 TB的文本到底有多少信息? —— 相当多。1TB相当于大约650万页以常见格式存储的文档,如文字处理文档或.pdfs。


IEEE高级会员Eleanor “Nell” Watson说:“一般来说,在许多类型的模型中,有更多的数据可以进行训练,从而获得更好的性能。它使模型能够更多地了解数据中的基本模式和关系。”


最佳设计


但参数的数量并不总是与训练数据的大小直接相关。例如,开发人员可以在10本书上训练一个非常大的模型,或者在1000本书上培训一个较小的模型,他们可能具有类似的性能。


Watson说:“更大的模型训练成本成倍增加,而且更难检查偏见等问题,也更难解释。将太多的参数应用于太少的数据会使模型更容易过度拟合(从一个过于突出的例子中进行不准确的概括)。”


简单地拥有大量数据来训练模型并不一定是一种好处。Fox说:“来自世界各地的10TB推文可能甚至不如来自维基百科的1TB基于事实的知识有用。”


规模问题


这种情况导致了人工智能世界中一些有趣的问题。也就是说,人工智能模型能有多大?


研究人员注意到,例如,将模型中的参数数量增加一倍可能不会产生两倍的性能。它可能需要花费数倍的资金、时间和计算资源来构建。一种解决方案可能是增加训练模型时使用的数据量,尽管尚不清楚您需要多少数据,以及数据是否存在。


Watson说:“因此,有人认为,许多最新模型的最大限制因素实际上可能是缺乏足够规模和细微差别的高质量数据,无法让它们满负荷运行。”


那么,是什么解释了语言模型在最近几个月取得的巨大飞跃呢?


Watson指出,这些改进是多种因素共同作用的结果,包括参数数量的增加、数据的更好利用以及训练技术的改进。ChatGPT背后的工程师强调了一种“human-in-the-loop”的方法,即根据人类评估者的反馈不断微调和改进模型。


而且,正如《IEEE计算机杂志》(https://www.computer.org/csdl/magazine/co/2022/05/09771130/1DeEYd2FXZm)最近的一篇文章所指出的,研究人员已经转向了各种技术来改进人工智能模型及其效率。其中包括更好的硬件和软件开发以及不同的计算机架构,但也包括使用结合文本、图像或视频的多模式训练数据。


作者指出:“人工智能模型规模不断扩大的趋势似乎并没有停止。尽管如此,只有少数大公司和机构能够跟上这一趋势,因为其进入壁垒相当大。”


微信号|IEEE电气电子工程师

新浪微博|IEEE中国

 · IEEE电气电子工程师学会 · 


最新《期刊引证报告》发布,IEEE期刊持续引领电气电子工程、电信、计算机科学等领域

聊天机器人时代到来时,搜索领域的前景将如何发展?

一位可以穿在身上的机器人助手Calico

量子计算机即将到来,这对于网络安全意味着什么?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
早财经丨乌军无人舰艇袭击,重伤俄大型登陆舰;华为发布鸿蒙4操作系统,接入AI大模型能力;蔚来手机已在工信部完成入网知圈专栏 | 人工智能的“智能”是什么?— 智能的原理(上)硅谷人工智能创新之旅总回顾 | 与世界顶尖科技企业交流,探索人工智能创新之谜硅谷人工智能创新之旅精彩回顾 | 与世界顶尖科技企业交流,探索人工智能创新之谜2023世界人工智能大会7月6日-8日举行!等你来看大模型、芯片、机器人、智能驾驶……谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱工信部:构建从智能芯片到算法框架到大模型的全栈式人工智能产业链刘二安:未完成的《谜话大午》行业观察 | 大模型能化解云厂商的增长、利润悖论?美国档案--排华法案实施,案例《纽约时报》禁止使用其内容训练人工智能模型AI「黑箱」被打开?谷歌找到大模型能力涌现机制《人工智能法示范法1.0(专家建议稿)》发布;稚晖君将发具身智能机器人;华为讯飞合推大模型一体机每周硅闻 | 突发!新员工薪资整体缩水;又有巨头宣布大裁员;Meta发布人工智能模型!如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍四个参数创生一头大象,对人工智能有何启示?NLP七十年!斯坦福教授Manning长文梳理:十年后的基础模型能成AGI吗?如此简单!谷歌揭示大模型能力涌现机制沈向洋周明杨格大模型激辩:继续爆堆参数,大模型能出现新的「智能涌现」吗?所谓“战斗民族“不过是一帮酒徒莽夫!马斯克2023年世界人工智能大会演讲:我相信,中国会有很强的人工智能能力!(附视频&演讲稿)多模态大模型能力测评:Bard 是你需要的吗?李彦宏为什么认为大模型能改变世界?历史研究和我的观点《花尾渡》(小说) 第八章 觅宝途中遇贵人作为首席执行官,如何评估新出现的各类生成式人工智能模型?彻底抛弃Transformer,八金刚之一再创业!联手前谷歌Brain大佬创建自然启发智能模型新增多种孕育智能模式!育儿网大预言模型产品「智育小助理」3.0版本惊喜发布ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光中信智库武超则:人工智能有十大发展趋势 涵盖技术、应用及安全对语言模型能否替代知识图谱的再思考#英语学习#与人工智能有关的词汇(视频)移远通信再推新品!全新5G智能模组SG530C-CN智创全景智慧生活人工智能能有多聪明,取决于这两个字人工智能立法提上日程:兼顾安全与发展,为人工智能治理打下框架性基础
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。