ChatGPT 这样的大模型,能否在国内出现和应用?| 技术专家大论道
自去年 11 月底正式发布以来,OpenAI 最新的 AI 聊天机器人 ChatGPT 火出天际,成为现象级应用,在全网话题度狂飙。
瑞银发布的研究报告称, ChatGPT 推出后,今年 1 月的月活跃用户估计已达 1 亿,成为历史上用户增长最快的消费应用。
达摩院基础视觉负责人赵德丽在接受 InfoQ 采访时表示,传统搜索引擎只会寻找已经存在的信息,而 ChatGPT 的应用实现了从信息的搜索到信息的创造的范式转变。清华大学计算机科学与技术系长聘副教授黄民烈认为,“ ChatGPT 宣示着无缝人机交互时代的来临。过去 conversation as a service (caas)还停留在纸面,但今天无论是开放域聊天,还是通用任务助理( ChatGPT )都表明这一概念已经走向现实”。短期来看, ChatGPT 有望成为传统信息检索的强有力辅助工具;长期来看,它可能发展成为 AI 系统级的综合服务平台。
自 ChatGPT 走红后,全球互联网大厂、创业公司纷纷加码布局,一场关于 ChatGPT 的军备竞赛已然拉开。谷歌加急推出了 ChatGPT 的竞争对手——人工智能聊天机器人 Bard Bard;微软已经宣布推出了由 OpenAI 提供技术支持的最新版必应搜索引擎。在国内,百度已经推出对标 ChatGPT 的产品——文心一言,多位科技大佬宣布在大模型领域创业。
让全网沸腾的 ChatGPT 到底有什么魔力?ChatGPT 具有哪些颠覆性的创新?其落地和商业化应用的前景几何?对于科技界来说, ChatGPT 的出现到底会带来哪些改变?ChatGPT 为什么是 OpenAI 最先做出来?爆红之下,有多少泡沫?
我们试图找到这些问题的答案。于是,InfoQ 发起了一场《极客有约》特别栏目《极客圆桌派:狂飙的 ChatGPT 》,我们邀请了多位 AI 领域的资深技术专家一起共同探讨 ChatGPT 的现在和未来。
以下为本次直播的精华内容,经编辑:
主持人 Mingke:大家好,我是 Mingke。我是《人工智障》系列的作者。这个系列主要是对使用基于统计的机器学习方法来发展 AI 技术时所存在的局限性进行批判。随着 ChatGPT 的出现,很多人问我之前的观点是否仍然成立,今天我们会讨论这些问题。今天我的角色是 prompt engineer,而我们的三位嘉宾则是 content generation。
首先介绍圆桌第一位嘉宾张晴晴博士,她是 Magic Data 的创始人和 CEO,曾任中国科学院声学研究所副研究员,是对话式 AI 先行者和 Data-Centric MLOps 引领者。她所在的机构非常注重数据和机器学习,是该领域的领导者。
张晴晴:大家晚上好!我是 Magic Data 的创始人张晴晴。我很高兴能看到像 OpenAI 这样一家专注于对话式 AI 的公司推出了 ChatGPT ,它在很大程度上颠覆了我之前的预期,让我看到对话式 AI 已经取得了超乎想象的进展。我相信在未来,通过更多的数据驱动,我们能够将 ChatGPT 这一技术不断升级,实现更高水平的人工智能。
Magic Data 成立 7 年,一直在为对话式 AI 提供深层次的数据支持。经过 6 年的时间积累,我们现在已拥有 20 万小时的对话数据,这些数据是通过模拟采集的方式生成的。最近,越来越多的公司和客户开始关注这一领域,特别是数据的底层支撑。我很高兴能在这次直播中与大家分享有关 ChatGPT 和对话式 AI 数据的理念。
主持人 Mingke:接下来介绍今天的第二位嘉宾祝海林,Kyligence 技术合伙人 / 资深数据架构师、新一代开源编程语言 Byzer 的作者,拥有 13+ 年技术开发经验。一直专注于 Data + AI 融合方向,致力于帮助工程师们从根本上提高数据平台落地和 AI 工程化的效率。
祝海林:Byzer 作为 Data & AI 低代码开发平台,也是 ChatGPT 的受益者,我们同样是致力于构建基础设施的企业。众所周知, ChatGPT 的基础设施是非常重要。OpenAI 有大量的基础设施积累,还得到了微软等公司的支持。这其中涉及数据采集、处理和人类反馈的标注,另外还需要模型训练,管理各种 GPU,将其作为服务提供出去。我们给流程引入了 MLOps 的概念,即一套将数据和 AI 结合起来的非常复杂的流水线。Byzer 公司的目标就是让这件事情变得非常简单,希望我们都能成为 ChatGPT 的受益者。
主持人 Mingke:最后一位嘉宾是我的老朋友鲍捷博士,文因互联董事长及创始人,爱荷华州立大学博士,伦斯勒理工学院博士后,麻省理工学院分布式信息组访问研究员。现任 W3C 顾问委员会委员、中国中文信息学会语言与知识计算专业委员会委员、中国人工智能学会心智计算专委会委员、金融知识图谱工作组主席、中文开放知识图谱联盟 (OpenKG) 发起人之一,Data Intelligence 杂志编委。
鲍捷:我的自我介绍开头都是一句话:“我是一名程序员”,从 15 岁开始写程序,我的梦想是直到生命的尽头都能坚持不懈地写程序。我一直在文因互联这家公司工作,文因互联的愿景是创造互联世界的记忆。我们一直致力于知识工程的研究,希望能够将全世界的知识以统一的表达方式呈现,最终为每个人配备一个智能助理。
我们从十多年前开始探索了无数应用,主要集中在 ToB 领域。特别是在金融领域,我们做了很多关于知识建模的工作,如科创板和北交所的自动化审核系统,让机器能够自动理解大量文本。
我们在这方面已经取得了很大进展,但是当新的框架出现时,我们突然感到了危机感。从“危”的角度说,过去的 10 年甚至 20 年的工作好像都没有多大意义了;从“机”的角度说,过去用了十年的时间将成本降低了一个数量级,实现了工程化,但再往下发展就非常困难了。我们曾经以为已经极限压榨了技术成本,但突然有一天出现了新的框架,让我们可以将成本再次降低一个甚至两个数量级。以前许多无法实现的应用现在都可以实现了,新的商业模式和机会也出现了。这是,我们感觉非常幸福的地方。
我也是人工智能工程师,曾经写过一篇文章《扒一扒聊天机器人》,在里面我讲述了基于神经网络的机器人是不可能实现的。还写过一篇名为《搞砸人工智能的十种方法》的文章,讲的是大部分基于经验主义的方法都不可行。但是今天,我需要回头修正之前的一些观点。
主持人 Mingke:正如鲍捷老师所讲,我和他之前对使用基于统计的机器学习方法来进行对话和语言实践是持怀疑态度的。请各位分享一下你们在这个问题上的观点。
张晴晴:我认为,掌握数据以及数据的处理方式是人工智能未来能够实现更快发展的关键。人工智能无法摆脱统计的影响,这是一个关键点。
目前 AI 的未来发展方向还难以预测,但我认为要么它会以统计学为基础,要么在统计学的基础上结合领域知识。
在过去,我们可能并没有完全依赖统计学,而是采用物理学或数学的逻辑进行研究。早期我们使用的高斯 - 马尔可夫模型更具有物理学意义,但这种可解释性的逻辑体系为什么效果会赶不上一个不可解释的“黑盒子”呢?这是因为黑盒子这套体系可能更像人类大脑的连接突触,所以这种模式再加上大数据的耦合之后,会有非常突出的效果。因此在未来的趋势中,我更认同数据驱动这条路。
ChatGPT 面对某些高难任务时,在数据量持续增加前期识别效果并没有变得更好,但当数据积累到一定量时就会突然出现陡峭的提升,这种陡峭的提升可以理解成人类的“顿悟”。另外 Transfomer 在数据处理方面与我们以前所了解的 BERT 有很大的不同,它将理解和生成相结合。对于某些任务来说,数据处理环节可能会更趋向于生成逻辑,这意味着我们可以将对话的呈现形式更多地输入机器,而无需在中间进行各种解析,如词性标注、知识图谱等。Transfomer 越来越多地将中间环节剥离,希望更简单、更直接地完成端到端处理。
祝海林:我的答案是半信半疑。我曾经参与过医疗对话机器人的开发,因为我们拥有大量医疗问答数据,所以我认为在没有大的技术突破之前,这个领域的发展已经到达顶峰。例如知识图谱领域需要抽取实体和标签,几乎所有的互联网和相关文本类公司都在做这样的工作,都面临着相同的瓶颈。
我之前与 ChatGPT 交互的经历让我意识到这种困境的解决方法。我特意让 ChatGPT 分析用户宝宝的问题,比如一些症状,然后让 ChatGPT 从这段文字中抽取所有的症状词汇,但不包括疾病词汇。ChatGPT 非常精准地完成了这项任务,这让我认识到这种技术的威力,从而改变了我对机器学习的看法。这种技术能够实现降维打击,不需要大量的知识积累和人力堆叠。通过输入一些自然语言,它可以完成一系列交互任务。比如,我们以前编写交互是使用编程语言,但现在我们可以直接写一段话并输入给 ChatGPT,它就能帮我们完成工作。总之,我认为 ChatGPT 的出现真的让我感到震惊,但我也发现背后的技术并没有那么神秘。
AI 难以突破的原因之一是因为我们一直在教导机器如何完成任务,并且要求将每个任务分解成很多步骤,这些步骤需要程序员或研发人员去教导机器。这种方法导致了瓶颈的出现。但当我们直接将问题交给机器端到端地解决时,我们发现机器的学习能力超乎我们的想象。目前来看使用数据驱动的端到端方法将是主要趋势。
鲍捷:举个例子,比如说我去日本旅游,虽然我不懂日语,但基本上可以从日文报纸中猜出大概意思。因为日语中有 50% 的符号是汉字,因此我可以通过这些符号来推测我看不懂的符号的含义。
ChatGPT 就像一只聪明的鹦鹉,可以像这样来读懂并翻译我们不认识的语言。但是 ChatGPT 目前还做不好四则运算。 你可以尝试问它各种算术题,就会发现它会进行数字内插,这是错误的。它很明显是在把这些数字本身变成一个符号、一组符号,然后按照一定规则进行处理。而我们现实中,无论是真正的语言构造,还是数学、财务规则、法律合规等这些所有的知识结构都是递归文法。所以我认为这个运算仅仅只有 ChatGPT 是搞不定的。
主持人 Mingke:如果一个模拟近似于某个实体,但本质并非该实体,我们该如何加以区分?例如,对于人工智能这个概念,我们需要思考一下是否有必要对其进行准确的定义?
张晴晴:我认为不需要。因为我认为我不需要去搞清楚一个人、机器或者动物的思维机理,我相信行动比思考更重要。我会在我能力范围内去了解一个人的历史来预测其未来可能的行动,而不是仅仅关注他们的思考过程。我们会经常思考要做某件事情,但是这并不代表我们真的会去实施,这是两个不同的概念。
我们必须承认人的认知能力是有限的。施一公老师提到一个观点:人对世界的认知受到自身构造的限制。我们是由蛋白质组成,我们的感官体验,如嗅觉、触觉和味觉,都源自于身体中的这些蛋白质。由于蛋白质数量有限,我对那些超出我能感知的部分的理解也有限。但这是否意味着那些东西不存在呢?就像我们说暗物质是存在的,但是我无法感知它。如果有机会,我当然会尝试用任何方法去接触到这些我感知不到的部分。只要我能够基于我感知到的部分获取所有信息并获得反馈,就可以在当前这种三维空间中进行学习和探索,但作为一个人,我无法跳到五维空间中去。
祝海林:我更关注的是如何更好地利用人工智能技术,将其应用和扩大化,而不是一味地去追求其终极形态。只有这样,我们才能不断推动人工智能技术的发展,让其越来越接近我们所期望的形态。我们会继续探讨人工智能的发展,但是如果我们认为某种技术非常出色,我们一定要利用它并将其推广应用。
主持人 Mingke:ChatGPT 对于我们这些从业者来说,其最重要的特征是什么?如果要挑选两个最重要的特征(最亮眼的能力),你认为是什么?
Mingke:以我的角度来看,ChatGPT 最亮眼的地方在于它的世界模型和生成能力。在世界模型方面,我们可以借助 ChatGPT 的常识推理器来实现更加智能的知识推导和应用,这可以帮助我们更好地发掘 ChatGPT 在专业领域的应用潜力。在生成能力方面,ChatGPT 可以通过巧妙的方式解决个性化模板的困难,从而实现更加智能、个性化的应答能力,这可以帮助我们更好地应对不同场景和需求的挑战。
祝海林:我认为最大的优点是它形成了无数模板,这些模板本质上都是一些“套路”。人类在掌握一些知识后,学习的实际上就是这些“套路”。我认为 ChatGPT 具备“套路”生成能力,它生成的东西不仅可以解决你的问题,甚至还能指导你完成尚未实现的任务。
第二个亮点是它具有多轮对话能力,它可以通过“in context learning”学习。在工作中,从员工的角度来看,你需要学会如何与 ChatGPT 建立联系,以便更快、更准确地获取信息。
从公司层面考虑,在 ChatGPT 诞生后我们可以在三个方面努力。首先,我们可以帮助更好地构建 ChatGPT ,例如 Magic Data 公司提供更好的匹配数据,我们这边提供更好的基础设施,可以更好地训练大型模型。其次,我们可以利用大模型去做一些事情,比如我们公司做了一个指标中台,你只需描述一下需要的数据,系统会自动算出指标值。以前我们需要通过 SQL 来实现这个功能,但即使是 SQL 也有很多人不会用。现在我们可以利用 ChatGPT 写代码,它可以自动生成 SQL 语句,甚至可以用自然语言来描述复杂需求。程序员们将面向自然语言编程,这也是他们的终极梦想。
鲍捷:从技术角度来看,我体会到了两个方面的突破。去年的知识计算专委会上大家曾询问过有关大模型和类似 BERT 的技术问题。当时我们还觉得这些技术并没有太大的用处。我们主要用它来确定数据集的极限。例如,我用 BERT 算出一个数据集的准确度是 91%,那我优化到 90% 就不再优化了,因为进一步的优化不会有太大的提升。通常我不会将其应用到用户终端系统中,因为成本非常高,而且迭代速度非常慢。
在过去几个月内我突然意识到了这个东西的价值。这种价值与两个新的计算范式有关,即提示学习方法和强化学习方法。无论是提示学习还是强化学习,我认为其基本范式仍然是如何更有效、更低成本地将人类知识注入到机器中。这种结构化的知识是人类大脑中拥有的,我们需要以一种低成本的方式将其转化为机器可理解的表示形式。最终的“佐料”虽然很少,但它可以改变整个配方的味道。这个“佐料”是人类知识,而不是机器数据。当我们最后加入了这一丁点催化剂后,化学反应突然加速了。这使得我们能够在客户服务中做许多以前根本不可能做到的事情。
在 2016 年我们尝试了智能投顾,但在 2018 年放弃了这个方向。因为你永远无法深刻地理解客户,也无法真正实现科学的投资建议。但现在有了 ChatGPT,你至少可以做两件以前根本做不到的事情。首先你可以以非常低的成本与客户长期陪伴,其次现在可以自动化撰写资产配置说明书。通过用更低的成本获取用户的数据,我们可以利用技术自动化生成各种报告和对话,并在一定规则的约束下生成各种观点、整合数据和创建更友好的用户交互方式,大大提高用户的粘性和数据量。这种方法不仅适用于获客、风控和投研等领域,未来还有很大的探索空间。
ChatGPT 最终可能成为你生命中一个至关重要的工具,甚至会“劫持”你的人生。有人估计一个人一生可以创作 5000 万个单词。这意味着如果你拥有大约 5000 万个标记,你几乎可以让用户感受到你比他们的父母还了解他们的需求,从而提供高度个性化的服务。我们之前的个性化服务主要通过标签分类实现,但这种方式的数据维度太少,无法充分理解个人。未来,这种技术在工程化方面将变得更加复杂,由许多因素综合而成才能发挥作用。这种技术将每个人都放进信息茧房,提供量身定制的服务,无论好坏,可能都会让我们感到不适。
有一个很重要的讨论,就是未来人类社会可能向左走或者向右走?向左走就是人工智能统治一切,建立“暴政”。而另外一种则是更加分权的数据,建立数据市场经济和数据资产市场经济,通常称之为 Web 3。过去有人提出了“拉动”的概念,即每个人都应该拥有一个属于自己的个人数据仓库。但当时的最大问题是普通人无法建立这样的数据仓库,因为成本非常高。现在,我们是否可以通过新的文本处理技术来降低个人数据仓库的建立成本呢?我认为这是非常有可能的。
张晴晴:我觉得 ChatGPT 有很多值得我反思的地方。第一个让我反思的点是“信息茧房”,我很难理解为什么像 ChatGPT 这种以数据驱动的系统更有优势。我坚信以数据为中心的理念,当然算法和算力同样重要,我认为三者缺一不可。我感觉大家好像在集体忽视这个点,即 OpenAI 坚持做到极致的事情,就是让数据变得更有效率。我坚信数据做到极致可以成为一个奇点。
从另一个维度来看,行业似乎更多地关注视觉数据。例如无人驾驶、辅助驾驶和安防都是视觉数据,因此视觉数据应该占据我们主要处理的数据市场。但 ChatGPT 告诉我们对话数据也是非常重要的。视觉只能传达有限的信息,而人类信息的传递靠的是语言。语言对于我们的认知和教育有着很深的影响,因此我在这次对话式数据的探索中深刻认识到了语言的重要性。以上就是我自己深有感触的两个方面。
主持人 Mingke:作为人类知识的表达方式,ChatGPT 的应用领域是非常广泛的。最近我们经常听到大家要做 ChatGPT 这样的东西,所以我问一个问题:你认为未来会有多少个大模型?
张晴晴:在谈到大模型时, 我们需要明确其定义。在 ChatGPT 中数据是分层的。如果我们将那些使用网上扒取海量数据灌入模型的方法定义为大模型,我认为全世界可能没有多少企业或国家能够支撑这种非常庞大的母体模型。在一些行业领域中,我个人倾向于采用联邦学习方法。在一定的阶段内,我们无法将所有东西都融合到一个通用人工智能的微领域模型中。
领域模型是不是大语言模型取决于具体情况。如果你正在开发针对整个金融行业或客服行业的领域模型,那么这是大模型。但如果你将这个模型应用于你的企业,那么它可能不能被视为大模型。
祝海林:我同意。我认为将模型分领域是不正确的。一个真正的大模型必须包含三个方面的内容。首先它必须具有通识,也就是人类的基础经验和知识。只有学习了这些通用知识,才能进一步学习特定领域的知识。其次,需要用领域特定的数据去训练模型,来让模型学习领域知识。最后,需要决定如何表达模型的结果,这可能需要基于人类反馈的方法。
将领域模型直接与大型模型相结合可能是不可行的,因为这些领域特定的知识和经验可能与大型模型所学的通用知识并不兼容。举个例子,我们以前的做法相当于是直接把专业知识灌输给一个不具备相关背景的人,就像把金融领域的知识灌输给一个三岁的孩子一样。但 ChatGPT 告诉我们,我们需要先构建一个大模型,以便让它具备良好的知识能力。接下来我们需要使用 finetune 技术来支持多任务。金融领域的专业知识和经验可能与大型模型所学的知识不一致,因此需要将它们分开处理。使用领域模型进行 finetune 的目的就是让模型能够学习特定领域的知识,并将其与通用知识结合起来,从而使模型更加准确和精确。
另外我们还需要让机器学会如何正确表达,这是通过数据挖掘人类做出的选择来实现的。对于同一个问题,机器可能会产生多种回答,但只有符合人类认知的答案才是正确的。因此在开发机器学习算法时,我们需要更加关注人类认知。
我认为领域模型是一项生态技术。尽管趋势是使用通用的、具有优秀知识结构的大模型,但它可能仍然无法解决所有问题。在这个过程中,我们可以使用通用模型来翻译领域专业术语,并添加一些偏好。对于金融领域,我们可能需要与非常资深的客户打交道,并需要使用非常专业的语言进行表达。因此,我认为领域模型对于不同的机构和公司都是一个未来的机会。
在生态系统中,领域模型和大模型应该不是同一个拥有者,很多创业的机会可能就会出现在基于大模型的领域模型中。大公司和小公司都会存在,而未来大公司很可能提供基于层次的大型模型,至少在接下来的一两年里,他们可能会提供这种服务。而对于一些创业公司来说,他们可以基于这些大型模型,为自己的领域提供应用。
鲍捷:首先,我们需要将理论应用到实践中。在当前的阶段,特别是在中国和中文环境下,以及我们所关注的 ToB 服务领域内,我认为短期内通用语言模型的商业化前景不大。因此,真正能够应用的语言模型仍然是在特定领域内使用的模型。然而这并不是终点。也许在五年或十年后,一个通用的基础设施生态系统可能会出现,但目前我对此持悲观态度。对于这样一个组织能否出现,我认为在短期内是不太可能的,因为提供者必须是中立和开放的主体,而不是商业公司。
在这个具体的语境下来说,我们应该避免将商业生命建立在无法验证的假设之上。因此我们应该采用更加相对简化的方法,以明确的任务为基础,在有限的数据和边界内,用较小的规模启动业务闭环。我们可以利用 3 个月、6 个月或者一年的中转周期来逐步撬动资源,不断优化我们的系统。然后,当系统真正成长起来或者我们的思想突然有了突破时,我们会积极地拥抱这些变化。
短期内,我们无法拥有与英文版 ChatGPT 相媲美的基础数据,比如中文百科数据。虽然维基百科数据的数量可能不是最多的,但是其质量是最高的。目前,中文没有一个百科网站能够与维基百科相媲美。另外,像 Reddit 等在线论坛这样的公开数据集我们也是欠缺的。如果我们仍然像过去一样,每家互联网公司都将自己的数据保密,那么每家公司所构建的大模型只能基于其自身的数据,这样构建的人类知识和常识肯定是不够全面的。因此,我们需要构建一个基于开放数据的生态系统,这需要很长时间来实现。
我想再补充一下关于语言模型的“neutral”的看法,它是指语言本身并不具有倾向性。因此,在面向消费者的应用中,尤其是在头部互联网应用中,这一特点可能成立的。但是,在特定领域中,如医疗、法律、金融等领域,这一特点的作用可能不会像在面向消费者的领域中那样。虽然语言模型可以进行跨语言学习和知识转移,但它并不能为客户最终买单的核心问题提供直接解决方案。这有点像小学生,三年级学生就可以开始写作文了,但是如果你想通过律师或医生的资格考试呢?
祝海林:在构建大型语言模型时,我们不能仅基于纯中文数据进行训练,而需要将西方或欧美的数据纳入其中。对人类来说,多语言可能是困难的问题,但在大型语言模型中这并不是难题。目前我们可能面临的困难是,我们对英语的掌握能力还有所欠缺,虽然这些数据是公开的,但我们需要对其进行有效的清洗和加工。在这方面,我们与欧美的一些公司相比仍有很大差距。但我们可以通过努力来弥补这个差距,因此比起创造数据,我们可以更快地利用国外的数据。我相信通过几年的积累,我们将能够充分利用这些数据。
主持人 Mingke:从创业者的角度出发,像 ChatGPT 这样的大模型是否能够在国内应用?目前有很多人想做类似的事情,你认为他们能够成功吗?如果想要实现这些目标,他们需要克服哪些挑战?
张晴晴:我认为这是一定能够做到的。我觉得目前全球最有机会做到的可能只有中美两国。但是在中国,目前我们还需要不断探索。中国面临的挑战主要来自于两个方面:金融体系和法律体系。
祝海林:换个角度来看,我认为中国人一个不太好的地方是,从领导层面开始,很多人往往会有一种大力出奇迹或者依靠个人英雄主义的思维方式。他们会认为只要雇用一些人就能够完成一件事情,但实际上这种思维方式是错误的。我认为核心问题在于人才密度。如果我们想要实现或超越其他国家,我们需要关注什么?根据数据显示,在人工智能领域的顶尖人才中,有 59% 在美国工作,而只有 11% 在中国。尽管中国已成为全球第二大经济体,但与美国相比,中国的人才密度仍然存在 6 倍左右的差距。这是第一个问题。
第二个问题是,从 ChatGPT 的角度来看,中国在人工智能领域的差距正在扩大。中国的顶级 AI 人才中,有 29% 在中国获得本科学位,但有 56% 在美国学习和生活。这意味着中美两国在 AI 人才方面的差距非常大。最近有很多人想在国内做 ChatGPT ,他们开始寻找资本。相对来说资本比较容易找到,因为这种模式已经得到验证。但最大的问题是他们很难找到合适的人才。
此外,OpenAI 背后有很多公司的支持,但目前我还没有看到中国的公司能够形成合作力量。每家大公司都想做一件事情,每个人都想开一家创业公司。因此我持有一种稍微悲观的态度。虽然这些公司都能够做出成果,但是我认为效果会差很多,它们最终都会成为领域模型。我认为这个差距至少在未来 3~5 年内会一直存在,即使我们能够做出相似的产品或技术,但在效果上这个差距可能是 2%、10% 或者 20%,甚至有可能这个差距会持续扩大。
鲍捷:我想聊一下在国内落地的问题。因为中美两国的人工智能落地方式是不同的。在美国,AI 主要通过大型互联网公司落地,他们会做一些增量型产品。但是在过去几年中,中国人工智能的应用基本上都是围绕着社会治理展开的。
如果 ChatGPT 这条路这次真的成功了,那么它未来十年的应用路线会是什么呢?我认为仍然是社会治理。所以我们应该围绕社会治理建立一种什么样的技术架构呢?我想这种技术肯定会提升在各个领域中的治理能力,特别是对于我们现在最关心的金融服务领域来说,它的应用也将非常强大。这种需求是关于 Surveillance Compliance (监控合规)的,未来这种需求只会增加而不会减少。
一方面,这种需求将逐渐渗透到每个企业的内部的治理,即数字化转型。这将带来许多新的应用,因此未来可能不仅仅是 MLOps。随着语言处理能力的提高,我们不仅仅是在传统的结构化数据上进行机器学习,更重要的是在数据湖上进行湖商一体化,并实时生成和构造知识。这就是从 MLOps 发展到 KBOps(Knowledge-Based Operations)。另一方面,这种语言处理能力的提升会带来全新的办公套件和工具的全面升级。在未来的十年里,我们今天所使用的办公软件可能会变得面目全非,大量的机器人将在工作流程的每一个环节上帮助提升工作效率。
围绕这个大前提,商业化的方向就变得比较清晰了。它涉及如何帮助人们理解文档、实现商业智能和数据分析。另外还有大量内容的自动化生成,例如各种报告、研究报告、公告、文件等内部流转的文件。这个领域的市场潜力非常巨大,可能会增长到万亿级别,特别是在社会治理和监管这两个领域。最终这个生意的本质在于领域,而不是技术。
我还有另外一个观点,就是这个世界上压根就不应该有太多人工智能公司,就好像世界上绝大多数公司都不是操作系统公司,也都不是所谓的浏览器公司,更多的是扎根场景服务的公司。
主持人 Mingke:ChatGPT 出现后,你会如何改变公司的路线图?如何对投资人和团队讲解?你是否考虑过哪些人需要招聘或辞退,业务上需要抓住或放弃哪些东西?
祝海林:ChatGPT 技术的应用可以分为不同层次,如构建 ChatGPT 的公司、开发大模型的公司、将大模型应用于实际场景的公司以及像我们公司一样为 ChatGPT 提供基础设施的公司。
我们可以根据自身情况进行调整。对于 Byzer 而言就是帮助大家更好地构建大模型。因为我们认为构建大模型的流程可以被验证和标准化,例如数据处理、构建、人工标注和反馈等环节,这套流程可以固化下来,只需要不断更新数据处理的逻辑即可。我们可能会朝这个方向努力。
对于人员招募而言,我们需要那些能快速跟进并选择使用 ChatGPT 的人。因为作为一名技术人员,如果你告诉我你还不知道 ChatGPT,或者你不知道它的作用,那么从我的角度来看你可能不太适合这个职位。人员结构方面,那些能够快速获取知识的人仍然是非常有竞争力的,因为他们不仅知道如何快速获取信息,而且还知道如何利用这些信息。我不认为这种技术会取代一些低端岗位。这是我与大家看法不同的地方。相反,我认为这种技术将帮助他们更好地完成工作。当然,前提是你必须接受这种技术并充分利用它。
鲍捷:一些我们原本以为需要三到五年才会发生的事情,已经出现了,所以我们体调整了优先级。本质上我们的工作可以分为三个方面:帮助人们“抄作业”、“查作业”和“写作业”。这三个方面对应的工具分别是 Word、Excel 和 PowerPoint。
在过去的 6 年中,我们向金融机构提供的所有服务本质上都是以上述三个工具为核心的。例如,如果你需要撰写报告,那么 Word 是必不可少的;如果你需要进行风控,那么 Excel 是必须的;如果你需要完成私募投资的调研报告,那么 PowerPoint 是必需的。因此我们一直在开发各种各样的机器人来帮助我们在这个领域中工作。
根据我们以往的路线图,我们最初花费了大量的时间和精力来开发人工智能的 Word。然而在最近的两年中,我们开始着手开发人工智能 Excel。尽管我们最初认为人工智能写作可能要到 3~5 年后才会普及,但现在我们已经发现,我们需要马上开始积极推进这项工作,我非常有信心在中国金融领域中做到最出色的表现。
我们也在尝试将这种能力拓展到其他领域,比如最近我们开始在医疗和航空领域尝试帮助医生和航空工程师撰写材料。虽然这些还只是初步尝试,但我相信随着我们公司的成熟,这种通用能力也有可能被孵化出来。不过需要强调的是,因为有创新者的窘境,因此这种能力可能不会以“文因互联”为主体。
张晴晴:总的来说我们的方向并没有发生太大的变化。我们一直坚持在这个方向上,只是这次让大家更清晰地了解我们的价值观。唯一可能会发生一些比较大的变化的是我们对于标注员的要求。我们认为未来的标注员要么是能够非常平衡地工作,要么是专家级别的人才。我们找到了 100 个标注工程师,其中只有两个人成功通过考试。我们给这些人一些考题,通过这些考题来了解这个人的能力和专业技能,从而确定他是否合格。
像 ChatGPT 这样的模型是基于 GPT-3 发展而来,但实际上 GPT-3 主要依赖于从互联网上扒取的各种非监督数据,而 ChatGPT 引入了上千个人做出的问答数据。因此从这个角度来看,我认为我们需要继续积累更多的数据储备,以便更好地支持像 ChatGPT 这样的模型。例如,如果你尝试过同 ChatGPT 进行多轮交互,你会发现在进行了大约 8~10 轮交互后,它也会开始胡说八道。这是因为随着轮次的增加,模型需要更多的数据来支撑,但是我们的数据储备量还没有达到能够支持这么多轮交互的水平。当然,这也可能与话题转换有关,我们需要从辩证的角度来看待这个问题。
主持人 Mingke:从创投的角度来看,我们现在面临的情况是否是“网景时刻”?
鲍捷:我认为这并不是“网景时刻”,而是“谷歌时刻”。
在 1998 年谷歌成立之前,有很多搜索引擎公司,但现在大家都不记得它们的名字了。谷歌做对了一件事情,就是将人类反馈纳入了搜索算法中。
今天我想再次强调,针对所有正在从事认知智能领域的公司而言,如果在三年内不能跟上技术进展和转型,那么三年后这些公司都将面临破产的风险。
但我认为,当前的时刻并不会导致像谷歌这样的应用成为主流,因为无论是在中国还是在美国,人工智能的应用依然主要是面向企业(ToB)的,而不是面向消费者(ToC)。从盈利的角度来看,ToB 占 80%,而 ToC 只占 20%。在 ToB 领域中很难出现像谷歌这样的巨头。相反,可能会出现数百家公司在不同的领域上进行应用落地的局面。
祝海林:我基本认同。ToC 确实很容易实现大一统。但在 ToB 领域,每个客户都可能有一些奇怪的需求或者特殊情况,很难说一个公司能够满足所有人的需求。但我始终坚信,通用的大型模型再加上一些其他有趣的功能,可以让公司更好地满足客户需求。
主持人 Mingke:作为一名创业者,当我们的企业都已经发展到足够大的程度,可以进行投资时,如果从投资人的角度出发,你会选择投资怎样的公司?你会扶持怎样的初创企业?
祝海林:如果从盈利的角度出发,我现在会选择投资基于大型模型的应用型公司。ToC、ToB 都会投。
我认为像这种自然语言技术,它的趋势之一是多模态转换。这意味着我们可以轻松地在自然语言、视频和语音之间进行相互转换。这个领域有很多商机和应用,可以被重新颠覆或重写。如果从赚钱的角度考虑,我会投资类似的公司,以实现新的商业模式。例如颠覆原有的招聘流程或公关文案相关领域的公司。
如果从更广阔的视角考虑,我可能会投资一些基础软件公司。这些公司可能做基础设施或分布式实现,即使它们的发展周期可能会很长。我认为这两个方面是相辅相成的。我们不能完全跟随热点。这也是业内人士经常批评的一点,即你不能只关注表面的东西,你必须要有坚实的基础。就像 OpenAI 一样,确实需要很多人共同出资才能将其建立起来。
张晴晴:我们是一家数据公司,Magic Data 这条路我认为是不错的。但数据行业有其自身的特点和差异化表现形式,需要专业的行业专家来处理。因此,我不相信任何一家数据公司可以包揽全部市场份额,因为数据领域的复杂性需要不同领域的专业人才才能胜任。
我认为未来的趋势是各个公司会朝着不同的领域专业化发展,形成各自的专业壁垒,使得其他公司难以进入。例如,在对话式、无人驾驶和工业等领域,会存在专门从事这种数据处理的公司,这种形态已经开始出现。虽然目前行业仍在不断演进,但我相信未来会逐步形成这种裂变趋势。
从长期来看,我会选择投资一家类似于脑机接口的公司。我从事数据方面的工作,虽然这涉及到一些人权问题,但我认为脑机接口是一种潜在的数据采集方式。
鲍捷:如果我在中国或美国寻找不同的投资目标,那么在中国,我会投资一家提供“Consulting as a Service”服务,并结合硬件设备使用的公司。
我们在中国市场的探索中发现,中国的 ToB 服务与美国市场相比,“SaaS”的第一个 S 和最后一个 S 的顺序是颠倒的。在美国它是“Software as a Service”,但在中国它是“Service as a Software”。因此美国那种 SaaS 在中国的 ToB 领域里,在可预见的未来是不可能落地的。我们发现,这两个社会或两种经济形态的底层运行规律是不同的,这也是为什么它们存在差异的原因。
因此在这种情况下,美国环境下成长起来的软件,在中国市场很难生存。要想在中国落地,最终还是以服务而非软件为主,这是客户最核心的买单因素。在中国,想要扩大 B 端业务规模,唯有具备高效交付和服务能力。许多人认为人工智能公司正在颠覆软件公司,但事实上人工智能颠覆的是服务公司,是让传统服务公司的效率得到极大提升。这个行业有能力创造真正的正面社会价值,并让生意不断扩大。
如果我想进行投资,应该是一家底层公司,提供数字化转型的能力。可能是一个小团队,他们可能会使用传统的方式来工作,效率比较低,但他们在这个行业中已经有了几十年的经验,非常了解这个行业。我会投这样的公司,最终把他们纳入到生态当中。
主持人 Mingke:如果我们不能在国内有效地建立起大型模型,从长远来看可能会对经济体造成哪些影响?
祝海林:从宏观的角度来看,如果我们不能在 AI 领域跟其他国家保持同步的话,我们可能会一直处于代差的状态。如果我们不能追赶先进的技术,那么持有先发优势的国家会越来越强大,可能会领先我们数代甚至更多,这类似于光刻机领域的情况。
其次,AI 代表着一种生产力,这意味着我们整个社会的效率会受到影响。如果我们的人才没有掌握先进的 AI 技术,他们的工作效率可能会更低,而其他国家可能会更高效地运转,这将导致我们的社会运转效率低下。因此,我们需要重视发展 AI 技术,否则可能会面临不可想象的问题。
张晴晴:我们国家已经不再单纯追求国民生产总值,而是要关注人均产值,这强调了我们要降低成本、提高效率,发挥每个人的最大价值。现在某些行业可能会处于被动状态,因为他们可能已经缺乏对研发的投入。当 ChatGPT 出现时,这种落后感可能会更加严重。在这种情况下,你是投资还是不投资呢?这是一个左右为难的问题,但如果你问我的话,我会勇敢地投资,因为只有这样才能实现更好的发展。
主持人 Mingke:通常我们使用 “AGI ”这个术语来描述真正的智能。最近似乎大家都认为,ChatGPT 本身就是 AGI。过去我们可能有一个固有的想法,即必须先实现真正的智能,然后才能让它适用于每个行业。从这个角度来看,AGI 是否已经实现了,或者 AGI 的概念是否需要重新界定,以使其适应现有的技术水平呢?在你看来,AGI 是否必须要先具备真正的智能?
鲍捷:每当人工智能话题被谈及时,总有一些人会提到 AGI,这让我感到有些不安。这个问题就像意识何时在生物体中开始一样,是一个无法回答的问题,也许也无需回答。就像真正的爱情一样,无法定义,无法划定范围。对于我们来说,这个问题在可预见的未来并没有多大意义,它只是一个定义问题。任何人都可以有自己的观点。
张晴晴:人工智能的未来发展趋势,可以从人类自身的发展历程中得到启示。我们常说优秀的人才应该具备 T 型特质,即在某个领域内成为专家,同时也具备多样性的能力。在这种定义中,我们首先需要做到的是拥有一项专业技能,形成自己的规律体系,去思考领域内的逻辑体系。当我们掌握了这种逻辑体系后,我们往往比那些没有这种体系的人更容易举一反三。当我们面对其他领域时,我们也会更快地理解它们。我发现,这种特点不仅适用于我,对于其他专家也是如此。
因此我们可以说,人类成为专家的过程,就是不断学习知识、吸收数据的过程。当我们积累了足够多的知识,融会贯通后,我们就会具备跨领域的能力。ChatGPT 也是这样一个形态,它在处理某些数据方面达到了极致,从而具备了横跨多领域的能力。人工智能的发展也是这样一个演进过程,不一定需要先有智能的部分。
祝海林:我认为现在像 ChatGPT 这样的技术已经是真正的人工智能了。虽然我们可能认为它只是学习了一些表面知识,就像鹦鹉学舌一样。但实际上它所学习的远比我们所了解的要多得多。许多研究者也许会为此写很多篇论文,从不同的角度解释它,但我们可能并不了解所有这些。
我相信 ChatGPT 走在了正确的道路上,因为它与人类非常相似。它需要学习通识,需要能够承受挑战,需要接受教育,需要学习如何表达自己,并通过人类的反馈来改善自己。而且,如果它的回答错误,你可以指出并纠正它。它甚至可以理解你的偏好,例如:“我的妻子永远是对的”。在我看来,这个过程已经非常接近人类,虽然它仍然有许多缺陷,但这些缺陷已经不是主要问题。
主持人 Mingke:最近经常被提及的一个概念是“human-like AI ”和“human-level AI” ,用来代替过去人工智能追求的目标。然而,人类会犯错,如果我们造一个类似人的 AI,它也会犯错,这是可以接受的吗?如果你们更偏向 human-like AI 的路线,你们是否支持开发这样的项目,即使这些 AI 也会像人一样犯错?
祝海林:只有在犯错、胡说八道的时候,AI 才会展现出它的潜力。有时候,它可能会说出一些我们认为毫无意义的话语,但我们暂时无法判断其正确性。这也意味着 AI 有可能比人类更加先进。
张晴晴:就像男孩子和女孩子谈恋爱一样,每个人都有自己的个性和缺点,但这并不妨碍他们相爱并共同成长。同样,人工智能也应该被允许犯错和有缺点,这样才能真正成为像人类一样的存在。我们不能一味地追求完美和无错,因为这不符合现实。
鲍捷:有时候,一些美好的事物并不是新的,而是在某一时刻以出人意料的方式重新组合而成。比如瓦特发明蒸汽机时,他并没有发明神奇的新东西,他只是通过新的机械构造,提高了蒸汽机的效率。
其实 ChatGPT 里的元素并不是全新的东西,ChatGPT 就是将这些技术有机地组合在一起了。虽然我没有看过 ChatGPT 的核心代码,但我坚信它一定不是纯粹的语言模型,其中一定涵盖了许多工程性的元素。这种计算机体系架构的能力以及大规模数据的操作能力,可能才是真正的“奥秘”。这些关键因素往往不会在论文中公开,而是需要进行深入的工程研发。我们不能仅仅通过抄袭来获得这些关键技术,因为抄袭的产品是没有灵魂的。因此,我们必须自己开发出一款产品,但这款产品必须以更加简单的方式为基础,尽早推出 MVP,并不断迭代和循环改进。
大规模语言模型的重要性等同于操作系统和浏览器内核。对应的技术复杂性也是等价的。维护这种模型可能需要上千人的团队长期维护。这个操作系统之上会形成一个庞大的生态系统,这可能会带来软件革命。
程序等于算法加上数据结构的概念可能会被改写,因为数据可能不再仅仅是我们理解的传统意义上的数据,而是更加丰富的结构化数据。大规模语言模型本身就是一种数据,但更好的称呼应该是“知识”。
算法的意义可能也会变得更加广泛,不再仅仅是我们以前理解的底层代码,而是更多机器生成的源代码或模块,这需要更多的人去引导和提示。未来的提示学习工程师可能会比软件工程师多。在未来,程序 = 知识 + 提示,这可能是一种全新的范式,未来的每个人可能都是在做提示学习。
点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!
微信扫码关注该文公众号作者