大型语言模型(LLM)的潜力有多大?
* 后台回复“商论入群”即刻体验主编领读(订户专属全年服务)!
”
通过处理最人性化的媒介——对话,ChatGPT现在让使用互联网的公众体验到了类似的“智力眩晕”。伴随这种兴奋而来的是科技行业内外的深切担忧:生成式AI模型的开发速度过快了。GPT-4就是一种称为大型语言模型(LLM)的生成式AI。Alphabet、亚马逊和英伟达等科技巨头都训练了自己的LLM,把LLM的力量放到很多人手中意味着许多头脑可以构想出创新的新应用,改进从医学到法律的一切,但也意味着让科技精英夜不能寐的灾难性风险变得更大。《经济学人·商论》本周连续推出AI专题系列文章,欢迎订阅阅读中英双语原文。
自创造ChatGPT的公司OpenAI在2022年11月首次向公众开放聊天机器人以来,技术精英们几乎没有其他想聊的话了。GPT-4是ChatGPT背后的人工神经网络,在美国的法律和医学执照考试中取得了优异的成绩。伴随这种兴奋而来的是科技行业内外的深切担忧:生成式AI模型的开发速度过快了。GPT-4是一种称为大型语言模型(LLM)的生成式AI。Alphabet、亚马逊和英伟达等科技巨头都训练了自己的LLM,把它们命名为PaLM、Megatron、Titan和Chinchilla等。
那位伦敦科技公司的老板表示,即使他也在追求运用AI,他也“对AI带来的生存威胁感到难以置信的紧张”,并且“每天都在与[其他]创始人谈论它”。美国、欧洲和中国的政府都开始考虑制定新的法规。一些知名人士呼吁暂停AI的发展,以免软件以某种方式失控并损害甚至摧毁人类社会。若你想把对这项技术的担忧或兴奋调整到恰当的程度,不妨首先了解它是怎么来的、它的工作原理,以及它发展的局限性。
虽然可以写下它们如何工作的规则,但LLM的输出并不完全可预测;事实证明,这些极大的算盘可以做较小的算盘做不到的事情,甚至让制造它们的人大吃一惊。OpenAI的研究员已经在各种不同的LLM中统计到了137种所谓的“涌现”能力。涌现的能力并非魔法——它们都以某种形式体现在LLM的训练数据中,但直到LLM的规模超过某个非常大的阈值时才会变得明显。在某个规模下,LLM用德语写出性别包容的句子的水平和随机写的差不多。然而,把模型稍微再扩大一点,突然间它就显现了一种新的能力。... ...
LLM实际上是一项庞大的统计学操作——它是如何工作的? LLM只会以统计而非语法的方式来理解。它更像是一个算盘,而不是一个头脑 LLM的输出并不完全可预测;OpenAI研究员已经在各种不同的LLM中统计到了137种所谓的“涌现”能力 涌现的能力令人兴奋,因为它们暗示了LLM尚未开发的潜力——但也可能意味着风险 很难判断哪些有害行为可能处于休眠状态,等待着规模扩大一点时被释放出来 LLM的注意力网络是从如此海量的数据中学习的关键
衍生阅读 | GPT企业级应用的挑战
谷歌云计算部门首席技术专家威尔·格兰尼斯(Will Grannis)指出,在采用新技术上,企业的要求要比消费者要高得多。保护机密或敏感数据就是担忧之一,这已导致从摩根大通到国防承包商诺斯罗普格鲁曼禁止员工在工作中使用ChatGPT。一个更大的问题是可靠性。ChatGPT这类工具能给出貌似可信但违背事实的信息——这个过程被委婉地形容为“错觉”。一些人担心出现大量由AI生成的诈骗、错误信息和计算机病毒。但最大的问题还是人与AI的关系。
《经济学人·商论》持续关注全球大趋势,欢迎订阅浏览。订阅商论,即可免费加入【主编领读社群】获取完整解读
🎉订户专享福利
主编领读 · 订户专属社群
✓每日主编精选文章推送 & 主编解读
✓与商论主编沟通交流
* 后台回复“商论入群”即刻体验主编领读!
全年商论英语学习社区
✓译者领读
✓每日一词+学人习语+译者课堂持续更新
海量商论中英双语往期内容
✓超过3000篇双语文章+译文
✓超过一万分钟主播朗读原文
✓双语纪录片
*入群方式:完成订阅 - 关注微信服务号【经济学人全球商业评论】并后台回复关键词“订户入群” - 添加小助理企业微信等待审核后被邀请加入商论订户专属群
微信扫码关注该文公众号作者