Redian新闻
>
谷歌DeepMind给AGI划等级,猜猜ChatGPT在哪个位置

谷歌DeepMind给AGI划等级,猜猜ChatGPT在哪个位置

公众号新闻

机器之心报道

编辑:陈萍

AGI 该如何划分,谷歌 DeepMind 给出了标准。


我们到底该如何定义 AGI(通用人工智能)?如果你要求 100 位 AI 专家进行解答,你可能会得到 100 个相关但不同的定义。

现阶段,AGI 是 AI 研究中一个重要且存在争议的概念,有研究者认为 AGI 已经出现在最新一代大语言模型(LLM)中;还有一些人预测人工智能将在大约十年内超越人类,甚至断言当前的 LLM 就是 AGI。

深入理解 AGI 的概念很重要,因为它映射了人工智能所要达到的目标、对事物的预测以及带来的风险。

我们该如何划分 AGI 等级呢?就像自动驾驶等级(如 L0 无自动驾驶)一样,这种级别的划分对人与人之间的沟通能力、制定规则和定义自动驾驶目标非常有用。本文,来自 Google DeepMind 的研究者提出了类似的 AGI 等级,根据划分原则,ChatGPT 被划分为 L1 Emerging AGI,Imagen 是 L3 Expert Narrow AI,AlphaGo 被划分为 L4 Virtuouso Narrow AI。

具体而言,他们提出了一个框架,用于对 AGI 模型进行分类。Google DeepMind 希望这个框架能够以类似于自动驾驶水平的方式发挥作用,从而提供一种通用语言来比较模型、评估风险和衡量 AGI 的进展。 

为了开发这个框架,DeepMind 对 AGI 的现有定义进行了分析,并提炼出了六个原则:

  • 关注模型能力,而不是过程。
  • 注注通用性和性能。
  • 关注认知和元认知任务。
  • 关注潜能,而不是部署。
  • 关注生态的有效性。
  • 关注 AGI 发展道路,而不是只关心终点。

在这些原则的基础之上,DeepMind 从性能和通用性两个维度提出了「AGI 等级(Levels of AGI)」。

  • Level 0:无 AI(No AI),如 Amazon Mechanical Turk;
  • Level 1: 涌现(Emerging),与不熟练的人类相当或比之更好, 如 ChatGPT、Bard、Llama 2 ;
  • Level 2: 有能力(Competent),达到 50% 的人类水平,广泛任务上还没实现;
  • Level 3: 专家(Expert),到达 90% 的人类水平,广泛任务上还没实现, Imagen、Dall-E 2 在特定任务上已经实现;
  • Level 4: 大师(Virtuoso) ,达到 99% 的人类水平,在广泛任务上还没实现,Deep Blue 、AlphaGo 在特定任务上已经实现;
  • Level 5: 超人类(Superhuman),胜过 100% 人类,广泛任务上还没实现,在一些任务范围内,AlphaFold 、AlphaZero 、 StockFish 已经实现。


论文地址:https://arxiv.org/pdf/2311.02462.pdf

AGI 六个原则


 DeepMind 认为,AGI 的任何定义都应满足以下六个标准:

 1. 关注模型能力,而不是过程。这一原则可以帮助我们排除一些不一定是实现 AGI 的必备条件。比如实现 AGI 并不意味着系统以类似人类的方式进行思考或理解;又比如实现 AGI 并不意味着系统拥有诸如意识(主观意识)或感知力(有感情的能力)等属性。

2. 关注通用性和性能。所有定义都不同程度地强调了通用性,但有些定义排除了性能标准。DeepMind 认为通用性和性能都是 AGI 的关键组成部分。

3. 关注认知和元认知任务。是否需要具身智能作为 AGI 的标准是一个有争议的问题。大多数定义侧重于认知任务,即非物理任务。尽管机器人技术最近取得了进展,但人工智能系统的物理能力似乎落后于非物理能力。DeepMind 认为执行物理任务的能力可以增加系统的通用性,但不应被视为实现 AGI 的必要先决条件。另一方面,元认知能力(例如学习新任务的能力或知道何时向人类寻求澄清或帮助的能力)是系统实现通用性的关键先决条件。

4. 关注潜能,而不是部署。假如我们证明了一个系统可以在给定的性能水平上执行一组必要的任务,那么就足以声明该系统是 AGI,然而部署这样的系统不应该被视为是 AGI 固有的。要求将可部署能力作为衡量 AGI 的必要条件会带来非技术障碍,例如需要考虑法律和社会责任,以及潜在的道德和安全问题。

5. 关注生态有效性。用来衡量 AGI 进展的 benchmark 非常重要,虽然传统的 AI 指标非常容易自动化或量化,但可能无法获得人们在 AGI 中看重的技能。

6. 关注 AGI 发展之路,而不是只关心终点。本文认为定义 AGI 等级是有价值的。将 AGI 的每个等级与一组清晰的指标 / 基准相关联非常有意义。

根据原则 2 和原则 6,表 1 引入了一个矩阵式分级系统,该系统将性能和通用性作为 AGI 的核心维度:


DeepMind 认为,当前的前沿语言模型应被视为 Level 1 General AI(Emerging AGI)。而下一等级 Level 2 General AI,即 Competent AGI,需要在更广泛任务集上提高性能才能达到。

在 Level 3 Narrow AI,即 Expert Narrow AI 等级中,大家熟知的 DALLE-2 被划分为这一等级。之所以这样划分,DeepMind 表示 DALLE-2 生成的图像质量比大多数人类能够绘制的图像质量都高。

在矩阵分级系统中,AGI 的最高等级是 ASI (Artificial Superintelligence),即把「超人类」的表现定义为超越 100% 的人类。举例来说,假设 AlphaFold 是  Level 5 Narrow AI (Superhuman Narrow AI),因为它执行单一任务高于世界顶尖科学家水平。这一定义意味着 ASI 系统将能够以人类无法比拟的水平完成广泛的任务。

此外,这一框架还意味着超人类系统或许能够比较低级别的 AGI 执行更广泛的任务,例如,ASI 系统可能拥有人类所没有的技能,如通过分析大脑信号来解码人类思想,通过分析大脑信号来解码思想机制,又或者与动物交流。

接着文章又讨论了 AI 风险。表 2 说明了 AGI 等级、自主等级和风险之间的相互作用。表 2 还提供了六个自主等级的具体示例。


了解更多内容,请参考原论文。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
制怒!群里有朋友很咯嗽,我们向她推荐这款神奇干果,猜猜她用后怎么说?!大家再看一下评论,都在表达惊喜和感谢~LLM准确率飙升27%!DeepMind提出全新「后退一步」Prompt技术佐治亚州2023富豪榜出炉,猜猜首富有多少钱?谷歌DeepMind最新研究:对抗性攻击对人类也有效,人类和AI都会把花瓶认成猫!谷歌DeepMind发布三项机器人研究成果;传苹果将在WWDC发布生成式AI版本Siri丨AIGC日报DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%谷歌DeepMind机器人成果三连发!两大能力全提升,数据收集系统可同时管理20个机器人UC伯克利等发布多模态基础模型CoDi-2;谷歌DeepMind利用AI工具发现200万种新材料丨AIGC日报中国40年繁荣结束,接下来会怎么样?惊了!某院医生用ChatGPT4个月写了16篇论文!成功发表5篇!(附ChatGPT干货教程)性能直追GPT-4,5000个H100训成!DeepMind联创发全新一代大模型谷歌DeepMind全新AI天气预报神器GraphCast登上Science!1分钟预测10天全球天气,碾压行业SOTA!超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!AI要从娃娃抓起!微软谷歌DeepMind推出AI入门课程,零基础进入AI行业2028年第一个AGI将到来?谷歌DeepMind提6条AGI标准,定义5大AGI等级俄罗斯科技巨头Yandex创建大模型YandexGPT,声称性能优于ChatGPTChatGPT狂吐训练数据!还带个人信息!DeepMind发现大bug引争议。。。历经3年、17位医生都没有确诊的病例,靠ChatGPT找到正确的诊断。找ChatGPT看病到底是否靠谱?ChatGPT狂吐训练数据,还带个人信息:DeepMind发现大bug引争议笑谈邂逅(43)吴总是一位格局非常大的老总[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)1分钟预测10天全球天气!谷歌DeepMind全新AI天气预报登上Science,碾压行业SOTA别再问我什么是迪斯科LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术世界之最003:各国或地区谋杀率排名,猜猜哪国最不安全?华为Mate 60 Pro硬件成本曝光,猜猜国产零件占比有没有一半?惊呆!某院医生4个月用ChatGPT写了16篇论文,发表5篇!(附ChatGPT干货)谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!斯坦福机器人炒虾爆火网络,谷歌DeepMind发布机器人最新进展,2024智能机器人元年到来?Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑兰花坑,是个奇妙的坑谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化AI无法颠覆化学?谷歌DeepMind论文被爆重大缺陷,伦敦大学教授建议撤回Nature谷歌DeepMind爆火动画18秒解释LLM原理!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。