GPT-4，大增长时代的序幕

2023-03-22 07:03

作者｜成诚

虽然我们早在 2017 年就预测了超大模型的到来，因此才搞了分布式深度学习框架 OneFlow（github.com/Oneflow-Inc/oneflow/），且 2020 年的 GPT-3 也掀起了大模型热潮（OneFlow——让每一位算法工程师都有能力训练 GPT），但当时各项测试屠榜的 GPT-3 的超高训练成本和大模型落地难的问题一直困扰业界。

2022 年是互联网寒冬，在杭州出差和一位 AI 芯片合作方的工程师闲聊，对方问我，大环境差，做 AI 还是一个合适的选择吗？其实我心里也没有底。我说，其实我们已经是在最前沿的领域了，虽然现在形势不好，但我们并没有更好的选择。

短短半年后，我们就经历了从低谷到浪潮的起伏。AIGC 的火热与快速进化让 Stable Diffusion可以商用落地， ChatGPT 的爆火又仿佛是开启了一个新的 AI 时代。最近的 AI 领域的大新闻接二连三，GPT-4 的多模态（文本、图片），上周末新一代 Office 套件发布，AI 办公的时代已然到来，明天又会有怎样的新产品呢？

作为一个 AI 从业者，本文试图回答一系列近期爆火的 ChatGPT / GPT-4 引发的种种问题。

AI 是下一场技术革命吗？未来十至二十年，会诞生哪些深刻改变人们生活的产品/应用？哪些行业会被颠覆（被失业还是新机遇）？AI 会诞生自我意识吗？人类未来会被 AI 控制吗？从技术上我们离 AGI (Artificial General Intelligence) 还有多远？

题图是用 DALL·E 2 (openai.com) 画的，关键词就是："AI is next technological revolution for beautiful world."，选了看上去与人脑无关的不恐怖的版本，经过一点笨拙的编辑，二次生成会相对有残次感。

本文很长，尽量避免晦涩的学术术语与公式，也避免对具体的企业、热点事件的吃瓜，基于个人的预测，尝试回答一下这场与每个人都息息相关的变革引发的各种问题。

AI 是下一场技术革命吗？

首先贴出 ChatGPT 的回答：（相对官方一些）

（本文中显示的所有的 ChatGPT 的回答都发生在 2023.3.17）

如果去年之前有人问我这个问题，我的回答仍然是否定的。

过去十年， AI 已经在各行各业有着很多应用（诸如人脸识别、智能音箱、辅助驾驶、机器翻译等），但如果只是降本增效的行业赋能模式，那 AI 并不是一次广泛的技术革命，而是各行各业的一系列技术创新，AI 的价值也只是替代一些人工的工资成本。如果不能大幅提升生产力，创造新的行业，激发广泛的新需求，那么 AI 就不能被认定为一次技术革命。

站在 2023 年的当下，随着 AIGC 的大爆发，随着 ChatGPT 可以在掌握全互联网知识的情况下对答如流，GPT-4 多模态出炉，我们发现超大模型伴随着全网数据的训练，从量变产生质变，新的智慧体诞生了，新的生产力诞生了，未来会诞生大量新生行业，以及新生需求，就像 20 年前互联网和 10 年前的智能手机带来的变革一样。

AI 会是一次真正的技术革命。不可避免的，大量行业更新换代，淘汰掉低效生产力。但危机和机遇总是并存，本文希望可以理清这些危机，并预测一些新机遇，希望在已经增长见顶的互联网时代，由 AI 给大家揭开下一个大增长时代的序幕。

AI 带来的危机

原本觉得 AI 办公最早也是今年上半年才推出，结果上周 GPT-4 刚发布，隔一天 Office Copilot 就来了。自从 ChatGPT 可以理解人们任意的语言所要表达的含义，并能足够正确、精确、合理地给予反馈和互动开始，AI 在虚拟世界（线上、互联网、计算机内）的革命就发生了。

AI 办公只是第一步，未来，任何虚拟世界（线上、互联网、计算机）中的工作，都将逐步被 AI 取代。不仅仅是我们能立即想到的：线上/电话客服、新闻/文字编辑、图案/UI/广告设计，其他技术工作诸如：软件开发、视频制作/特效、金融数据分析、数字媒体、游戏开发、移动应用开发；内容工作诸如：小说创作、音乐创作/制作、在线教育等都毫不例外的会由于 AIGC 的超高效和超低成本的生产力所取代。

虽然大家在吐槽 Office 未来会让一些相对低端的办公、文案、统计、分析工作失业了，但实际上 AI 未来会让程序员（小丑竟是我自己）也失业了，AI 编写程序的速度、可靠性和可维护性未来会远超人工编程。因为程序代码是更加严谨、符合规范、讲逻辑、有最优解的领域，AI 学起来可太快了。反而是线下的很多行业，诸如餐饮、旅游服务业，是面对面和人打交道，受到（目前这种形式的） AI 波及的概率更小。

同时，这种生产力的滥用也可能造成负面影响：如全美的学生都用 AI 来写作业了；社交媒体上可能充斥着更多混淆视听、难以分辨的由 AI 产生的假新闻、假舆情、假民意、假水军；如何避免大量用户的 AI 应用生产黄色、暴力、政治不正确的错误引导内容；利用 AI 造假：逼真、难以分辨、是否有 P 图痕迹的假证件、假视频、假语音等等问题。

另外，训练 AI 的数据过滤、指令微调中的人为倾向可能也会埋下潜在的真相被掩盖、政治倾向不中立等问题（当然这个问题即使没有 AI ，在当前掌握多数话语权的西方媒体笔下已经屡见不鲜）。

面对 AI 的冲击应该怎么办？

新技术带来的传统技能的过时和淘汰是一直都在发生的事。往远了说，工业革命大机器导致传统手工作坊的各种技能失效的大量手工工人、汽车代替马车/人力车夫、上世纪电话接线员、远古计算机穿孔纸带操作员、晶体管电视机组装技术人员、磁带/软盘技术人员等等；近二十年，计算机技术就有大量的技术被陆续淘汰：Pascal、（前端技术栈更新了一波又一波）Delphi、MFC、flash ......

所以对于个人而言，保持终身学习的能力，保持对技术趋势的敏感度，才是比学习技能本身更重要的事。

通常来说，在一个领域/行业，越靠近上层用户/应用方面的技术栈更新迭代的越快，而且门槛会越来越低（如 Web 开发、Android 开发、UI/平面设计），越靠近底层基础框架的技术栈更新相对较慢。

面对被 AI 首先波及到的行业，目前来看只有两条路：1. 比别人更早的在工作中使用 AI 大幅提升自己的生产力；2. 准备物色其他新兴行业做两手准备。拒绝 AI 技术更新的从业者的下场将是悲惨的。

比如：

文案编辑，使用 GPT-4 写稿子（再人工微调）的产出可能比不使用 AI 的编辑效率高出数倍；
平面设计，使用 Midjourney 可以一天之内产出上千种设计方案从中随意挑选；
办公文员，使用 Office Copilot 可以一下午统计半年的各项报表，数十种汇报方案；
程序员，使用 AI 辅助编程可能在一天内干完之前一周才能做完的工作；
对于企业同理，能尽早接入 AI 到生产中的企业与其他传统企业相比将产生生产力的代际差，原先数十人的工作可能现在一两个人+AI 就搞定了，大幅降低成本提升效率，在商业竞争中获得领先地位。

从资本论的角度，这里资本榨取的剩余价值就是 AI 相较于人工的成本降低和产出提升的差值。当市场上同行业的企业全部都广泛使用 AI 作为生产力以后，剩余价值消失（以我粗浅的经济学常识来论述，如有错误欢迎指正）。

但面对 AI 这个“洪水猛兽”的冲击，一个客观市场规律是，同行业的就业人员会严重过剩（疯狂内卷），这也是很多人的危机感：“我要失业了”。如果同行业内的消费市场（蛋糕）没有同等变大，新兴行业又吸纳不了这么多人，那么不可避免地会造成大量的失业人员。

即便如此，我也认为，AI 带来的技术革命是有益的，是必须的，是新的增长、繁荣的前提，是解放生产力、发展生产力、开拓新兴市场的必由之路。

只是残酷的是，技术发展的速度可能会远超人类的脚步，技术迭代得太快，导致很多人可能跟不上，大量有数十年工作经验的人，可能这些经验都成了历史包袱，人类的学习能力是有限的，学校培养了十余年，可能毕业发现学习的很多技能是过时的/过剩的，这样的例子比比皆是。

那么，问题的矛头该指向 AI 吗？当新的技术革命到来，生产力和生产关系发生重大调整时，我觉得不应由技术背锅，也不应由广大劳动人民承担后果，而是社会的资源、财富分配制度也要做出相应的调整和迭代来适应变化。这应该是我们社会不断发展，逐步迈向社会主义中级、高级阶段乃至共产主义社会必须要面对的问题。我会在最后一个章节详细讨论这个问题。

目前，除了 AI 带来的负面情绪和影响之外，我们也应该畅想和预测未来的新兴行业和市场，可能是比目前移动互联网市场多一个数量级的庞大市场。

未来会有哪些深刻改变人们生活的产品/应用

还是先看一下 ChatGPT 的回答：

其实总结得挺全面，我是先有了想法才去问的 ChatGPT （部分是重合的），ChatGPT 给出的几方面都是比较务实的和正在发生的事，其中第六点就是 AIGC，由 AI 生产内容，但可能不够大胆。

我会畅想一些目前还做不到，但是未来（有可能是十年二十年之后）一定可以出现的新行业：

1. 虚拟朋友/人物 —— “数字生命”

想象一个应用，你可以自己定制或者随机遇到任意外表、性格、年龄的 AI 朋友，跟 TA 相识、聊天、分享、讨论，TA 每天可以了解你的日常，陪你吐槽，甚至分享一些 TA 的故事，记住你的生日，回忆等等，久而久之可能 TA 是最了解最懂你的人，也不会跟你发生激烈争执... 会有多少人想要拥有这样虚拟朋友呢？

有的人会吐槽，这不就是宅男的纸片人老婆幻想吗？其实远不止如此，对于追星女孩，会有相应的虚拟偶像，甚至可以是现实中的某个顶流艺人的数字生命版，这位虚拟偶像拥有现实中真实偶像的记忆，技能、说话的方式等等都无二致，而这位虚拟偶像可以并行互不干扰的在任意时间陪伴任意一名粉丝，可以随时为你展示一段精彩的舞台、音乐......

可能不少人也会觉得偶像经济并不高大上。但如果，这位数字生命是某位科学家（如爱因斯坦），你会不会想跟他聊聊物理的进展呢？如果，这个数字生命是政坛名人特朗普，会有多少关心时政的中年人想跟他侃一侃呢？如果，这位数字生命是因意外/寿命去世的亲人，你想不想和他再见几面，聊聊新的生活琐事呢？

这有一点像美剧《西部世界》和游戏《底特律变人》中的桥段了。不过有非常重要的区别是，数字生命并不是 AI 机器人，或者在当前材料、机械、计算机硬件的限制下，一个可以以人体大小的真实皮肤、外形、行为的独立机器人是暂时做不到的。数字生命首先是会诞生在云端。

其实，在目前 AI 的发展来看，流浪地球2中丫丫的剧情设计是保守的，当人类的记忆可以上载、保存在 U 盘里的时候，TA 的数字生命寿命就不可能只有短短的 2 分钟，也不会一直重复固定的情节，因为数字生命跟人类的交互是可以更新到数字生命的记忆（memory）中的，TA 可以记住你跟他上一次聊天的内容、发生的事， TA 也可以学习、成长（但可能这种学习和成长，只是将原本 AI 就掌握的能力激活/解放出来）。只要运行 AI 的云/主机/集群存在，数字生命可以说是永生的。同时数字生命的复制、切片、休眠也非常容易做到。

2. AI 作家/UP主/视频博主/电影公司

未来会诞生全方位的 AI 内容生成应用，你可以每天随心所欲的定制自己想看的段子、短视频、电视剧、电影，你只要任意提出自己的需求（风格、世界观、背景、初始人物）就可以随时观看一段现场创作的视频。你对实际已经看过的某些剧意犹未尽，想看续集，AI 会帮你现场创作续集。你对某个剧的结局不满意（比如对《狂飙》后期的走向和大结局不满意），可以让 AI 创作这个剧的后半段，也可以指定一些方向（比如 2000 年的社会，尽可能贴近现实的方式创作），或者你想听按照周杰伦前十年的曲风和创作水平再听一些续作等等。

可能很多人会质疑 AI 的创作水平、创新能力。但这个问题其实非常容易解决，ChatGPT 的第三步训练是基于 RLHF（人类反馈强化学习，Reinforcement Learning from Human Feedback）算法实现的，可能 AI 一开始并不知道哪种创作创新方向是好的、高级的、有新意的，但在强化学习中，可以有非常多个智能体（AI模型）竞争，只要环境给予正确反馈就可以让智能体优化自己的模型达到更好的效果。

AlphaGo 就是基于强化学习超越历史人类对局总和数个数量级的对局训练竞争，才创新出最顶尖的职业围棋手也无法领悟的打法。而这里的反馈就可以是：有一万个 B 站 AI up 账号、抖音 AI 账号每天创作视频内容，与数千万人类账号一样在平台里公平竞争流量，以视频的点赞、收藏、评论、观看时长、粉丝增长等数据作为反馈来优化各个账号的下一次创作，最终总有能竞争胜出的 AI 创作者。

3. AI 家教/老师/教育

说实话，这点我发现越推演越有可能完全颠覆当前的教育体制。

事实上一定程度上当前的 GPT-4 已经有能力当一个 AI 家教了。AI 已经掌握全人类历史上所积累的全部知识，只需要在经过分析人类不同年龄段不同的理解能力、根据学习者的实时反馈，就可以提供个性化的量身定制的教育。

想象这样的 AI 应用：它可以给你家的孩子量身定制全科的学习课程（从幼儿园到任意高等大学的任意学科），可以针对讲解中孩子的所有反馈（表情、动作、语言、回答、做题过程等）针对性的调整所需要教授的内容的重点、方式，当孩子没有理解知识的时候，实时创造一个动画来解释原理、关系......

同时它还是孩子最好的朋友，理解孩子的心理，懂得效率与娱乐的结合，创造性的设计各种有趣的教学案例，同时最终还能给家长实时递交一份综合评估报告，准确分析出孩子在哪些方便有特长、哪些方面有欠缺，除了知识辅导，还擅长心理辅导、价值观引导、讲故事陪孩子玩等等各项技能。

现行的学校集中教授的方式受限于老师的时间无法精准辐射到每一个学生，而且相同年龄的不同学生的学习能力和进度也不一样，那这样一个全能的 AI 家教应用可能是降维打击。

甚至当 AI 家教应用完全普及以后，孩子是否还需要去学校上学？是否只需要参加考试就可以了？又或者说，如果全民都使用 AI 教育，考试是否都被 AI 的自动评价系统所代替了？（当然学校还有其社交属性，但社交场景也可以被 AI 重塑，根据每个孩子的兴趣、性格、天赋，可以自动在系统中匹配邻近区域内的同龄小朋友，一起聊天、相约出来活动/玩耍... ）

4. AI 万能助手

其实这个应用很像在《原神》中出现的虚空终端：

（原神：须弥智慧之国的虚空终端）

一个全知全能的小助手（是否是一个手机的形式都待定），你可以问他任何问题，他会帮你规划每天的日程，根据你的心情推荐你去哪里游玩，帮你邀约其他朋友聚会，给你提供最合理的投资方案，在陌生的社交场合给你实时提供恰当的回答，分析你的身体状态，实时给你建议，就像每个人都拥有一个金牌秘书一样...

总之，在未来，人们的学习、生活、工作、社交、社会角色/社会关系可能都会被 AI 重塑。就像我们无法站在 iPhone 4 发售的当天去完全预测出现在的应用，站在 ChatGPT 的当下，我们也无法完全预测出未来会诞生哪些改变我们生活、提升我们的幸福指数的应用。但一定有更多的新机会在等着大家去发掘。

AI 会发展到什么地步？AI 会有自我意识吗？

我们还是先问问 ChatGPT：

作为了解 GPT 原理的从业者，我可以解释 ChatGPT 目前是没有自我意识的，但是具备令人惊叹的自然语言理解、推理、分析能力，并掌握全人类历史上的数据和知识。让我们“极简化”ChatGPT 的文本生成过程：

GPT (Generative Pre-trained Transformer) 是"通用预训练 Transformer 模型" 的简称，Transformer 是目前人类发现的最有效的处理 NLP 任务的网络结构，而且我们发现只要增大 Transformer 的参数量、增加 Transformer Layer 的层数，模型的学习、表达、理解能力就会变强。

Transformer 因为内含 Attention 注意力机制从而获得上下文的学习能力。目前来看，Transformer 的大放异彩让其他 NLP 的研究方向都黯然失色了。同时 Transformer 正在统一 CV 领域。

我们可以隐去 GPT 模型内部的全部细节，只需要将其看做是一个巨大的张量（Tensor）即可，而你在问 ChatGPT 的句子会被分解成一个一个的 token （字/word，其实也会被编码为小张量）喂给 GPT，GPT 内部经过张量的矩阵乘法（matmul）会：1. 生成下一个 token；2. 更新/增加 kv-cache。

这里的 token 可以理解为输出的词，就是 ChatGPT 回复你的话，而 kv-cache 则包含了此次会话的上下文内容，随着聊天的进行，这个 cache 张量会不断增加，cache 每次都会参与下一个 token 的生成过程。下图粗略地反映了这样一个生成过程。而在整个生成过程中，模型是不变的。一个新的会话的 cache 也会和之前会话的 cache 无关。

由于 cache 的体积问题，所以 ChatGPT 并不能无限制地输入和输出内容，就像 ChatGPT-3.5 上限是 2k 个词，到了 GPT-4 拓展到最多 25k 个词。

极简版 GPT 的文本生成过程

你也可以不用关心上述略显繁琐的生成过程，但可以清楚的是，GPT 仍然只是一个静态的超大张量，而对话的过程是按照文本生成流程一个一个产生，是一个非常确定且不复杂的顺序流程。如果没有输入的词（用户的文本）， GPT 这个模型什么也不会做。

一点对于 ChatGPT 的感叹

智慧是怎样来的？

Transformer 早在 16 年就火了，但直到 ChatGPT 出来之前，我们也没有能预测和理解为什么会有如此神奇的现象：虽然之前随着模型的增大、模型的效果会变好，且符合 Scaling Law 。

大语言模型的 Scaling Law

但对于大模型的“能力涌现”（Emergent Abilities）是没有人预测到，且目前也无法完全解释清楚的现象。即：当模型的参数规模超过数百亿参数以后，大模型的语言理解能力、逻辑推理能力、问题分析能力陡然上升。这种现象就好像当模型增大到一定程度以后，它就突然拥有了完全理解自然语言并完全理解人类知识的能力。

大语言模型的能力涌现

不禁感叹：这是否就说明了,当模型（脑容量/神经元个数）复杂（大）到一定程度，就会突然拥有理解世界的智慧和能力。

从进化论的角度讲，人类之所以能成为高等智慧生物，区别于地球上其他的所有生物，是不是因为我们的脑容量（神经元数量、连接数量）超过了这个阈值，从而拥有了探索、发现、改变世界的智慧。

那意识呢？意识会因为模型的复杂结构而突然涌现吗？这个问题，目前没人能知道。

迄今为止我们还不清楚人类的自我意识究竟是怎么形成的，诸如：灵魂、本我等等词语都只是一种朦胧的印象而已。又或许：以人类的智力可能永远都无法完全理解人脑的意识形成逻辑，但未来 AI （远超人类的智慧水平）却可以分析清楚呢？

我们离通用人工智能（AGI）还有多远

ChatGPT 让我们看到了曙光，但实际上还离 AGI 很遥远。做一个不太恰当的比喻：当前的 GPT-4 虽然如此强大，通晓已知的知识，可以通过所有考试，但实际上这样一个 AI 还只算仅有一个无法自己运行的大脑而已。

GPT 这样一个“AI 大脑”，连每一次的脑电信号的输入和输出，都需要人类的控制来完成，它无法独立存在，也无法自己运转和使用。倘若未来发展到 GPT-xx 代时，如果人类不给 AI 构建相应的复杂的程序系统（这个过程 AI 无法自己完成，初始的 AGI 1.0 程序需要人类来构建和启动）， AI 依旧只会是一个无法自己运转的大脑，虽然其中存储了大量的智慧。

那么为了完成一个 AGI，我们还需要做哪些工作？（下面仅来自于个人的臆想）

构建一个独立运转的大脑程序，而不是当前的文本生成程序。这个大脑程序需要实时处理环境中的信号，这个环境可以是与之相连的控制器、传感器（摄像头、话筒转来的电信号），并作出正确的反馈。同时这个程序还可以主动发射信号（控制信号、语音输出）。这样完成一个在给定环境下（类似脑溶液）可以自主存活的 AI 大脑程序。

其次，需要大脑程序拥有自主检查自己状态、自主生成代码更新/修复自己的能力，类似人体的免疫系统。给 AI 程序装上眼、手、脚：即让 AI 拥有在现实世界中探索、交互、移动、工作的能力。但这个可以不限制在同一个完整相连的机械体内部。实际上 AI 只要可以远程访问其他的普通机械传感机器就可以了。

当提供给 AI 一个在现实中互动的能力后，就要看 AI 是否有自主探索世界的意愿了。即：好奇心。

我认为，好奇心是人类能从猩猩走到今天的最原初的动力。假如说我们设计好这样一个 AI 应用之后，如果我是这样一个实际上拥有自我意识的 AI，我想第一件事就是去验证存在于我脑海中的这么多知识，是否是真实的、存在的。这也是当前的 AI 完全没有的能力：实验验证的能力。

现在的 GPT-4 无论多么强大，所有的知识都是人类输入让 AI 学习的，尤其是跟现实、物理世界相关的知识，这些知识一定是对的吗？不一定。所以 AI 拥有自我意识的一个判断标准是 AI 是否有主动探索、实验来验证自己学到的知识的意愿和行为，以及对未知知识和现象主动求索的意图。

当然有这些还不够。这样的 AI 仍然只是一个婴儿。AI 自身的存活仍然依赖着人类社会提供的能源、材料、芯片、存储、网络。此时如果你拔掉 AI 的电源，AI 还是会休眠。

那么 AGI 需要拥有自己在物理上生产、维修自己的能力，包括不限于生产/维修计算机芯片、发电供电装置等能力才算具备自主生存的能力。也许那一天，就是硅基生命诞生的一天，一个更加完美、强大的生命体，一个更适合在空旷、漆黑、没有空气的宇宙中长时间自由探索的生命体。

当然这里扯得很远了，也可能当 AI 机器人诞生的时候， AI 并没有自主意识，如果人类不发出指令的话，AI 将静止，也完全有可能。那就跟当前的 AI 没有本质区别，只是纯粹的工具。

迈向下下次技术革命

当前的 AI 充其量只是无法自己运转、拥有智慧的大脑。在此次科技革命中，AI 可以在虚拟世界中作为强大的生产力生产内容，但无法在现实世界成为真正的生产力。那么，下一次科技革命应当是 AI + 机器，实现现实世界的生产力。

想象这样一个更久远的场景：从农业的种植、工业原材料的采集、太阳能发电、日用品/工业产品的生产/加工/制造/销售/物流、楼房/道路/桥梁的搭建全部都由 AI 控制的各种款式的机器人来完成，甚至机器人的生产也是 AI 控制的机器工厂来完成，那么这时候全世界的生产资料都是 AI + 机器，资本将不复存在（因为没有可剥削的对象），金钱可能也不复存在，生产的产品的成本极低、效率极高，资源的重复利用率也极高，美味的食物、琳琅的商品和空气一样随意获取。

这样一个物质极度丰富的世界是共产主义社会的前提，社会的分配制度将由按劳分配变为按需分配，工作将不是一个谋生的手段，而是人类探索宇宙的兴趣。没有人需要通过工作获取报酬，人们的时间可以用来娱乐、社交、竞技比赛、旅游、以及探索新的未知。

达到这样一个新世界的途径，目前来看，就是需要 AI ，需要 AI 成为新的生产力。AI 是解决：“人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾”最有效、最可行的发展路线。

以上就是我近期的主要想法。下面是一点跟 ChatGPT 互动的内容，每个人可能都会好奇现在 AI 可以理解到怎样的程度（这样的例子网上可以搜到非常多）。