GPT4 来啦,欢迎加速进入通用人工智能时代!|硅谷徐老师
编者按:
GPT4 并不完美,但人类也不是,这是 OpenAI 联合创始人 Greg Brockman 对 GPT4 的评价,也是硅谷徐老师对 GPT4 的看法。
在 ChatGPT 创造行业近十年来第一个 iphone 时刻之后,这家人工智能公司再一次以世界上最有影响力的 AI 系统震撼业界。
本期节目是一期「科技早知道」特快专递,硅谷徐老师与 Diane 双双坐镇,与 AI 从业者玉典、一级市场投资人 Bill 畅聊 GPT4 的来龙去脉与热点话题。
完整音频
▲文字有删减和整理,欢迎在小宇宙、喜马拉雅、Apple Podcasts、Spotify等各大音频平台收听完整音频
GPT4 与 ChatGPT 有哪些不同?为什么在这个时间点释放 GPT4?
▲图片来源:推特
玉典:领英的创始人 Reid Hoffman(里德· 霍夫曼)提到去年的八月份就已经拿到了 GPT4 的基础版本,尝试后觉得非常强大。现在才发布的原因,主要是发布后会被很多人使用,需要考虑相关的风险。比如,GPT4 这么强大,有人问它怎么制作炸弹,GPT4 肯定不能告诉它,怎么做到让 GPT4 对社会有更积极的影响,这个是 OpenAI要花时间去完善的。
GPT4 比 ChatGPT 强在三个方面。第一,GPT3 和 GPT3.5 主要基于文字,而 GPT4 打开了多模态优势,用户可以输入文字和图像,用户给一张图片,GPT4 就能帮助用户去很好地分析图片内容,也能分析某个曲线代表的是什么样式,进行一系列数据分析。第二,输入提示词(token)的限制放宽了,之前提示词的数量限制在 4096 个字符,现在升级到了支持最多 32000 个字符。第三,推理能力的大规模增强,各类考试的准确率很高,能做的任务的难度有明显提升,像高中考试、LSAT、GRE、奥林匹克竞赛、LeetCode,GPT4 都能做,而且成绩能达到前10%的水平,而之前的模型参加考试只能做到末尾的10%。
目前 GPT4 目前还有一些限制,比如训练文本主要基于 2021 年之前的文本,也有一些 2021 年之后的文本,但数量有限;另外微调(fine tuning)的费用也比较高,目前可使用的生态还有很多优化的空间。
从 OpenAI 发布 GPT4 的时间点来看,小公司是非常专注去解决一个问题,需要把模型训练到跟人类表现趋近的水平。OpenAI 内部有预训练组、强化学习组、数据标注组、数据训练组等等,模型训练不是几十行代码的问题,是庞大的系统工程,需要 OpenAI 这样堆积人才密度才能去完成。另外经常会看到 OpenAI 内部有人身兼数职,比如 InstructGPT 这篇论文的共同一作是欧阳龙,他在内部兼职了七八个模块,个人能发挥更大的能力,组与组之间的工作也能互相看到,这给创业公司很多灵感。
OpenAI 如何规划产品迭代路线?接下来还会重点往哪些方向继续推进开发?
▲图片来源:纽约时报
硅谷徐老师:从一个模型的角度来说,有三个维度可以思考-算力、算法、数据,这三个方面之后都会有提高。第一,算法肯定会有新进展,只是 OpenAI 没对外公布。第二,算力可以用更大的集群训练模型。第三,数据可以不断更新,更充分地去使用各个领域的高质量数据。像 GPT4 能参加专业考试,大概率就是这方面的标注数据加上去了。这次 GPT4 出来后,图像生成方面的突破也值得期待。
Bill:文本上怎么去做模型评估、迭代,目前路线是比较清晰的,可以参考 OpenAI 的论文,GPT4 已经能很好地回答各类文科问题,像脑筋急转弯之类的理科问题,GPT4 比 GPT3.5 要好,但并非完美。但 OpenAI 未来在多模态上走哪个方向,还不清楚。目前能看到就是视觉能力非常初步,之前是文本能力帮助视觉能力推向应用场景,但视觉能力还没有反哺给文本,帮助文本理解场景。未来随着 OpenAI 开发更多的视觉能力,结合文本,有没有可能达到更高维度的抽象理解能力、推理能力,能不能通过连续的视频和文本的综合训练去提高理解能力,我们也很好奇。
玉典:从一个数学问题来看,之前 GPT3.5 是输入文字、输出文字;现在 GPT4 是输入文字加图片,输出文字,这就像你读一本书,之前是刷文字,现在是文字里有了图片,读起来就更有意思,甚至后来出现有声书、短视频、长视频、内容的展现形式更加生动,最后的终极形态可能是输入与输出都是文字加图片,再加语音、视频的综合形式,全方位打开感官。
这次的 GPT4,OpenAI 发布了九十多页的技术文档,文档里提到由于各种考虑,没有开放包括数据、模型训练方法、模型大小在内的任何技术细节。只做文字或只做图片,其实都不难,比如文字有 Transformer,图片有Clip、Stable Diffusion、DALL-E 2。但关于图片和文字如何结合,做更自然的训练,现在有很多猜测的方式。我个人预测,因为 OpenAI 的架构一直追求美,就是简单可预测,不去人为干扰,整体训练架构可能不会特别复杂,用第一性原理,可能会把文字和图片编码(encode)成自然的形式,然后用之前的解码(decoder)架构直接训练出来。
丁教:没有太多细节公布,有没有可能是OpenAI想让竞争对手多试错?
硅谷徐老师:竞争环境是一方面,要控制 GPT4 被用于作恶的风险是另一方面,毕竟 OpenAI 从成立的第一天开始就预见到人工智能可能未来会超越人类。GPT2、GPT3的时候还会告诉大家分别有 15 亿参数、1750 亿参数,但去年 11 月 ChatGPT 出来的时候就不说了,参数规模是更大还是更小都有猜测。
玉典:直观上感觉是 API 慢了 3-4 倍,我是第一时间申请进去的,感觉周末的时候(3/18-3/19)就到了 API 的极限。对话生成很慢。
大家怎么看成本的问题?
▲图片来源:推特
玉典:GPT3.5 时期的达芬奇 003 模型(text-davinci-003),输入是 4000 个词符(token),收费模式是输入加输入一起收费,后来的 gpt-3.5-turbo 版本只做推理,限制也是 4000 个词符(token),但价格降了十倍,0.002 美元/每 1000 词符(token)。
硅谷徐老师:一个词符(token),换成中文大约是1/2,换成英文大约是 3/4。
玉典:GPT4 的提示词分两种,第一种是 8000 个提示词,第二种是 32000 个提示词,整体比 ChatGPT 贵了15-30 倍。目前开放的 API 是 8000 个提示词的,收费模式是输入+输出一起计算,0.03 美元/每 1000 词符(token),比 ChatGPT 贵了 15 倍,GPT4 的输出比输入贵 2 倍,输出是 0.06 美元/每 1000 词符(token),这个输出的成本比 ChatGPT 贵了 30 倍。32000 个提示词的版本,输入是 0.06 美元/每 1000 词符(token),输出是 0.12 美元/每 1000 词符(token)。目前OpenAI 背靠微软和英伟达的资源,硬件上的优化、训练方式的优化,都能推动成本下降。
Bill:去年 OpenAI 的毛利大概是 0%,有一段时间是负毛利,非常低的水平。站在商业公司的角度,OpenAI 是站在产品的成本线上去指定定价策略的。今年 OpenAI 内部肯定对底层做了很多优化,有了进展就会有降价策略。
斯坦福的Alpaca(羊驼)会给生态带来什么影响?
▲图片来源:斯坦福官网
硅谷徐老师:与 OpenAI 的模型有差距,但在某些场景下也足够好了。像硬件行业在过去几十年的发展,虽然英特尔、AMD 是独一无二的,但芯片厂家的数量也是成百上千,某些芯片就在某些单一场景下,不需要更好更丰富的功能。
玉典:是的,斯坦福 Alpaca(羊驼)论文的作者我也认识几位,他们内部做了很多尝试。学术界跟 OpenAI 不一样的地方是学术界更希望以公开的方式推进,包括Meta 现在做的也是,质量上可能不如 OpenAI,但开源的方式能让更多人都参与研究。Meta 之前是 OPT 模型,现在这段时间发布的是 LLaMA 模型,内部测评中,LLaMA 比 OPT 好很多;当时 OPT 出来也是服务于学术研究的,当时公司有政策说不做商业化。
硅谷徐老师:一个模型的 weights(模型权重)就像可口可乐的配方一样,其实本来不想公开的,但是被泄露出来,已经放在 GitHub 上了。
玉典:对。现在很多研究都是拿 ChatGPT 给出的答案当成自己的训练数据去训练。当然,在现在的 NLP(Natural Language Processing,自然语言处理)领域,评测指标比较有限。OpenAI 内部有一种比较好的模型质量评价框架,最近也开放了一个开源的质量框架去让大家一起评测,贡献多的人有机会早获得 GPT4 的 API 。
Bill:我最近也同时尝试了斯坦福的模型和国内创业团队的中文语言模型,很多开源模型已经达到 GPT 的60%-70% 的水平了。未来就像徐老师说的,像芯片行业,自动驾驶汽车可能需要英伟达的 Orin 芯片、Xavier芯片,但是一个简单的硬件,可能用国产或其他的AI处理器就行。
OpenAI、微软这些企业在训练模型时,如何解决数据隐私问题?
▲图片来源:微软官网
硅谷徐老师:隐私不是大模型行业独有的问题。如果用户选择在网站上与 ChatGPT、GPT4 进行对话,那么对话内容可能变成训练的标注数据,但如果是写程序交互,OpenAI 默认是不会放进标准数据的。举个例子,我跟一位教授聊开源,我说 ChatGPT 说不定可以帮助他做研究,一开始担心词符(token)数量限制会不会影响,但后来发现因为教授做的是开源产品,所以 OpenAI 早就爬到了。即使是这样一个比较特殊的编程语言,GPT 因为能通过公开方式索引到,居然也已经学会了。大模型的发展,确实会带来很多需要思考的新问题。
Bill: 我自己会有一个设想,因为未来的模型、类似智能体、智能助手的产品,都会非常的个性化,会获取非常多维度的数据,未来可能每个人都会有一个隐私数据的中间层,存储人跟智能体的交互记录,可能是以数据库索引的形式存储,也可能是以嵌入的形式变成向量。
玉典: 其实在不同国家和区域,隐私有不同的定义,欧洲、美国、中国都不太一样。在机器学习领域,训练模型的时候也用保护隐私的方式进行,比如隐私计算、联邦学习。
硅谷徐老师:隐私之外,还有合规问题。隐私是某个用户的数据要不要给 OpenAI、OpenAI 怎么使用用户数据,合规则是某个人让 ChatGPT 或者 GPT4 写程序,所写的程序是否合乎规定,这也是一个灰色地带,因为大模型训练中所使用的数据,可能存在版权争议。越是保守的公司,对隐私与合规问题就越重视,所以也有硅谷公司就不允许使用 ChatGPT。金融科技方面,有硅谷的数据负责人反馈,公司不但不允许内部的程序员使用 ChatGPT,也不允许自己的软件供应商使用 ChatGPT 生成程序。
玉典:OpenAI 和微软合作的项目,里面就有信任与安全团队(trust and safety)、法律与合规团队(legal)、安全与隐私团队(security and privacy)等等,具体到团队的每个人也有不同职责,有的是负责监控与收集反馈的,有的是制定政策。OpenAI 其实有特别感谢微软安全团队给的建议,因为微软对反垄断、安全、隐私这些问题,有非常深入的理解。在隐私安全方面,OpenAI 原来可能缺乏经验,但与微软的合作能帮助 OpenAI 更好地处理这些问题。
最快被AI取代的职业是哪一种,工程师、设计师、CEO,还是产品经理?
丁教:工程师。
玉典:设计师。
Bill:工程师、设计师、产品经理的初级岗位。
硅谷徐老师:我选 CEO。我当时看到这个问卷的时候,有 11148 个人给出了自己的答案, 31% 认为 CEO 会被取代,30% 上下选择了设计师,选择工程师跟产品经理的人各占 20%,马斯克选择了 CEO。
▲图片来源:推特
从 ChatGPT 出现到 GPT4 出现,这几个月里我跟很多人聊过,并不是所有人都觉得这是一个非常有突破性的事情,比如图灵奖的获得者 Yann LeCun,但 CEO 们普遍认为 ChatGPT 特别神奇,他们会觉得虽然 ChatGPT 的答案并非都是完美的,但至少是用数据讲话,是客观的。很多时候我们做事情,容易屁股决定脑袋,包括 CEO 自己,在股东的压力下、投资人的压力下、客户的压力下,也会做出长期来看并不完美的决策,而在这些时候ChatGPT 完全有可能做出更好的决策。
玉典:分阶段看,初创公司的 CEO 还是扮演很重要的角色,比如把握公司价值观和愿景,调节员工心态;但是当公司逐渐长大,CEO 要处理的问题就更复杂,时间有限且人际关系复杂的情况下,个人偏见容易导致决策失败,付出很大的代价。ChatGPT 的优势就是在短时间内能接收大量信息,从员工想法到报表数据,从整体层面为解决关键问题提供一个更客观的方案。
Bill:如果 CEO 能被替代,可能投资行业的很多人也会消失了,因为投资行业早期很大程度上是在投人。现在 AI 不能做的事情,是如何去设立一个长期的愿景规划,如何做价值判断,很多 CEO 在产品上有极强的直觉和天赋,这些 AI 还做不到。
硅谷徐老师:一个公司不可能没有 CEO,但 CEO 可以把AI 当成一个副手,就像每个飞机的机长都会有一个共同合作的副驾驶员。现在有些场景下,50%-80% 的程序都是 Copilot 写出来的,那以后 CEO 做所有决定中,也有可能 80% 是 AI 帮忙完成。如果 Steve Ballmer (2000年-2004年微软时任 CEO)有一个 CoPliot CEO,不去买诺基亚,他或许就能再做 10 年微软的 CEO。
GPT4 会带来哪些新机会?
玉典:我之前有一个观点,OpenAI 好像没什么特别强的技术壁垒,但现在越来越觉得,这是一个庞大的系统工程,OpenAI 有普遍适应能力上的强大,而 Jasper,MidJourney 则是对垂直行业的认知、对 OpenAI 能力的认知,以及产品的 know-how,有很深的理解。这种情况就像现在垂直领域 SaaS 企业在报税、人力招聘上的独有优势,Jasper,MidJourney在「微调(fine tune)」上有增强学习的能力,客户粘性高,这就是壁垒。后面大家不一定要自己去搭建模型,更重要的是怎么结合模型来深入满足具体产业的需求。
产品层面,可以考虑怎么结合自然语言交流的形式,用一种低频但长尾的方式,提升用户的交互体验。技术层面,基于大模型的数据优势,初创公司可以考虑用「大模型第一」的方式去重新设计自己的技术,搜索系统、推荐系统都有创新空间。组织效率方面,人员交流成本会大规模降低,头脑风暴变得更容易,想调研一个领域,或者想做公司的估值模型,ChatGPT 加上自主搜索就能实现。不提早拥抱这种技术的公司,很可能被竞争对手淘汰。
硅谷徐老师: 总结一下,一个是颠覆交互,一个是颠覆云计算,另一个是颠覆谷歌搜索。
▲图片来源:小宇宙
硅谷徐老师在「 如何应对ChatGPT?二级市场闭门研讨会精选 | S7E01 硅谷徐老师 」这期节目里,也详细分享了有哪些新机会可以探索,欢迎收听。
欢迎在小宇宙、喜马拉雅、Apple Podcasts、Spotify等各大音频平台收听完整音频
微信扫码关注该文公众号作者