Redian新闻
>
GPT4 来啦,欢迎加速进入通用人工智能时代!|硅谷徐老师

GPT4 来啦,欢迎加速进入通用人工智能时代!|硅谷徐老师

科技


编者按:

GPT4 并不完美,但人类也不是,这是 OpenAI 联合创始人 Greg Brockman 对 GPT4 的评价,也是硅谷徐老师对 GPT4 的看法。


在 ChatGPT 创造行业近十年来第一个 iphone 时刻之后,这家人工智能公司再一次以世界上最有影响力的 AI 系统震撼业界。


本期节目是一期「科技早知道」特快专递,硅谷徐老师与 Diane 双双坐镇,与 AI 从业者玉典、一级市场投资人 Bill 畅聊 GPT4 的来龙去脉与热点话题。


完整音频

▲文字有删减和整理,欢迎在小宇宙、喜马拉雅、Apple Podcasts、Spotify等各大音频平台收听完整音频

GPT4 与 ChatGPT 有哪些不同?为什么在这个时间点释放 GPT4?


▲图片来源:推特


玉典:领英的创始人 Reid Hoffman(里德· 霍夫曼)提到去年的八月份就已经拿到了 GPT4 的基础版本,尝试后觉得非常强大。现在才发布的原因,主要是发布后会被很多人使用,需要考虑相关的风险。比如,GPT4 这么强大,有人问它怎么制作炸弹,GPT4 肯定不能告诉它,怎么做到让 GPT4 对社会有更积极的影响,这个是 OpenAI要花时间去完善的。


GPT4 比 ChatGPT 强在三个方面。第一,GPT3 和 GPT3.5 主要基于文字,而 GPT4 打开了多模态优势,用户可以输入文字和图像,用户给一张图片,GPT4 就能帮助用户去很好地分析图片内容,也能分析某个曲线代表的是什么样式,进行一系列数据分析。第二,输入提示词(token)的限制放宽了,之前提示词的数量限制在 4096 个字符,现在升级到了支持最多 32000 个字符。第三,推理能力的大规模增强,各类考试的准确率很高,能做的任务的难度有明显提升,像高中考试、LSAT、GRE、奥林匹克竞赛、LeetCode,GPT4 都能做,而且成绩能达到前10%的水平,而之前的模型参加考试只能做到末尾的10%。


目前 GPT4 目前还有一些限制,比如训练文本主要基于 2021 年之前的文本,也有一些 2021 年之后的文本,但数量有限;另外微调(fine tuning)的费用也比较高,目前可使用的生态还有很多优化的空间。


从 OpenAI 发布 GPT4 的时间点来看,小公司是非常专注去解决一个问题,需要把模型训练到跟人类表现趋近的水平。OpenAI 内部有预训练组、强化学习组、数据标注组、数据训练组等等,模型训练不是几十行代码的问题,是庞大的系统工程,需要 OpenAI 这样堆积人才密度才能去完成。另外经常会看到 OpenAI 内部有人身兼数职,比如 InstructGPT 这篇论文的共同一作是欧阳龙,他在内部兼职了七八个模块,个人能发挥更大的能力,组与组之间的工作也能互相看到,这给创业公司很多灵感。

OpenAI 如何规划产品迭代路线?接下来还会重点往哪些方向继续推进开发?


▲图片来源:纽约时报


硅谷徐老师:从一个模型的角度来说,有三个维度可以思考-算力、算法、数据,这三个方面之后都会有提高。第一,算法肯定会有新进展,只是 OpenAI 没对外公布。第二,算力可以用更大的集群训练模型。第三,数据可以不断更新,更充分地去使用各个领域的高质量数据。像 GPT4 能参加专业考试,大概率就是这方面的标注数据加上去了。这次 GPT4 出来后,图像生成方面的突破也值得期待。


Bill:文本上怎么去做模型评估、迭代,目前路线是比较清晰的,可以参考 OpenAI 的论文,GPT4 已经能很好地回答各类文科问题,像脑筋急转弯之类的理科问题,GPT4 比 GPT3.5 要好,但并非完美。但 OpenAI 未来在多模态上走哪个方向,还不清楚。目前能看到就是视觉能力非常初步,之前是文本能力帮助视觉能力推向应用场景,但视觉能力还没有反哺给文本,帮助文本理解场景。未来随着 OpenAI 开发更多的视觉能力,结合文本,有没有可能达到更高维度的抽象理解能力、推理能力,能不能通过连续的视频和文本的综合训练去提高理解能力,我们也很好奇。


玉典:从一个数学问题来看,之前 GPT3.5 是输入文字、输出文字;现在 GPT4 是输入文字加图片,输出文字,这就像你读一本书,之前是刷文字,现在是文字里有了图片,读起来就更有意思,甚至后来出现有声书、短视频、长视频、内容的展现形式更加生动,最后的终极形态可能是输入与输出都是文字加图片,再加语音、视频的综合形式,全方位打开感官。


这次的 GPT4,OpenAI 发布了九十多页的技术文档,文档里提到由于各种考虑,没有开放包括数据、模型训练方法、模型大小在内的任何技术细节。只做文字或只做图片,其实都不难,比如文字有 Transformer,图片有Clip、Stable Diffusion、DALL-E 2。但关于图片和文字如何结合,做更自然的训练,现在有很多猜测的方式。我个人预测,因为 OpenAI 的架构一直追求美,就是简单可预测,不去人为干扰,整体训练架构可能不会特别复杂,用第一性原理,可能会把文字和图片编码(encode)成自然的形式,然后用之前的解码(decoder)架构直接训练出来。


丁教:没有太多细节公布,有没有可能是OpenAI想让竞争对手多试错?


硅谷徐老师:竞争环境是一方面,要控制 GPT4 被用于作恶的风险是另一方面,毕竟 OpenAI 从成立的第一天开始就预见到人工智能可能未来会超越人类。GPT2、GPT3的时候还会告诉大家分别有 15 亿参数、1750 亿参数,但去年 11 月 ChatGPT 出来的时候就不说了,参数规模是更大还是更小都有猜测。


玉典:直观上感觉是 API 慢了 3-4 倍,我是第一时间申请进去的,感觉周末的时候(3/18-3/19)就到了 API 的极限。对话生成很慢。

大家怎么看成本的问题?


▲图片来源:推特


玉典:GPT3.5 时期的达芬奇 003 模型(text-davinci-003),输入是 4000 个词符(token),收费模式是输入加输入一起收费,后来的 gpt-3.5-turbo 版本只做推理,限制也是 4000 个词符(token),但价格降了十倍,0.002 美元/每 1000 词符(token)。


硅谷徐老师:一个词符(token),换成中文大约是1/2,换成英文大约是 3/4。


玉典:GPT4 的提示词分两种,第一种是 8000 个提示词,第二种是 32000 个提示词,整体比 ChatGPT 贵了15-30 倍。目前开放的 API 是 8000 个提示词的,收费模式是输入+输出一起计算,0.03 美元/每 1000 词符(token),比 ChatGPT 贵了 15 倍,GPT4 的输出比输入贵 2 倍,输出是 0.06 美元/每 1000 词符(token),这个输出的成本比 ChatGPT 贵了 30 倍。32000 个提示词的版本,输入是 0.06 美元/每 1000 词符(token),输出是 0.12 美元/每 1000 词符(token)。目前OpenAI 背靠微软和英伟达的资源,硬件上的优化、训练方式的优化,都能推动成本下降。


Bill:去年 OpenAI 的毛利大概是 0%,有一段时间是负毛利,非常低的水平。站在商业公司的角度,OpenAI 是站在产品的成本线上去指定定价策略的。今年 OpenAI 内部肯定对底层做了很多优化,有了进展就会有降价策略。

斯坦福的Alpaca(羊驼)会给生态带来什么影响?


▲图片来源:斯坦福官网


硅谷徐老师:与 OpenAI 的模型有差距,但在某些场景下也足够好了。像硬件行业在过去几十年的发展,虽然英特尔、AMD 是独一无二的,但芯片厂家的数量也是成百上千,某些芯片就在某些单一场景下,不需要更好更丰富的功能。


玉典:是的,斯坦福 Alpaca(羊驼)论文的作者我也认识几位,他们内部做了很多尝试。学术界跟 OpenAI 不一样的地方是学术界更希望以公开的方式推进,包括Meta 现在做的也是,质量上可能不如 OpenAI,但开源的方式能让更多人都参与研究。Meta 之前是 OPT 模型,现在这段时间发布的是 LLaMA 模型,内部测评中,LLaMA 比 OPT 好很多;当时 OPT 出来也是服务于学术研究的,当时公司有政策说不做商业化。


硅谷徐老师:一个模型的 weights(模型权重)就像可口可乐的配方一样,其实本来不想公开的,但是被泄露出来,已经放在 GitHub 上了。


玉典:对。现在很多研究都是拿 ChatGPT 给出的答案当成自己的训练数据去训练。当然,在现在的 NLP(Natural Language Processing,自然语言处理)领域,评测指标比较有限。OpenAI 内部有一种比较好的模型质量评价框架,最近也开放了一个开源的质量框架去让大家一起评测,贡献多的人有机会早获得 GPT4 的 API 。


Bill:我最近也同时尝试了斯坦福的模型和国内创业团队的中文语言模型,很多开源模型已经达到 GPT 的60%-70% 的水平了。未来就像徐老师说的,像芯片行业,自动驾驶汽车可能需要英伟达的 Orin 芯片、Xavier芯片,但是一个简单的硬件,可能用国产或其他的AI处理器就行。

OpenAI、微软这些企业在训练模型时,如何解决数据隐私问题?


▲图片来源:微软官网


硅谷徐老师:隐私不是大模型行业独有的问题。如果用户选择在网站上与 ChatGPT、GPT4 进行对话,那么对话内容可能变成训练的标注数据,但如果是写程序交互,OpenAI 默认是不会放进标准数据的。举个例子,我跟一位教授聊开源,我说 ChatGPT 说不定可以帮助他做研究,一开始担心词符(token)数量限制会不会影响,但后来发现因为教授做的是开源产品,所以 OpenAI 早就爬到了。即使是这样一个比较特殊的编程语言,GPT 因为能通过公开方式索引到,居然也已经学会了。大模型的发展,确实会带来很多需要思考的新问题。


Bill: 我自己会有一个设想,因为未来的模型、类似智能体、智能助手的产品,都会非常的个性化,会获取非常多维度的数据,未来可能每个人都会有一个隐私数据的中间层,存储人跟智能体的交互记录,可能是以数据库索引的形式存储,也可能是以嵌入的形式变成向量。


玉典: 其实在不同国家和区域,隐私有不同的定义,欧洲、美国、中国都不太一样。在机器学习领域,训练模型的时候也用保护隐私的方式进行,比如隐私计算、联邦学习。


硅谷徐老师:隐私之外,还有合规问题。隐私是某个用户的数据要不要给 OpenAI、OpenAI 怎么使用用户数据,合规则是某个人让 ChatGPT 或者 GPT4 写程序,所写的程序是否合乎规定,这也是一个灰色地带,因为大模型训练中所使用的数据,可能存在版权争议。越是保守的公司,对隐私与合规问题就越重视,所以也有硅谷公司就不允许使用 ChatGPT。金融科技方面,有硅谷的数据负责人反馈,公司不但不允许内部的程序员使用 ChatGPT,也不允许自己的软件供应商使用 ChatGPT 生成程序。


玉典:OpenAI 和微软合作的项目,里面就有信任与安全团队(trust and safety)、法律与合规团队(legal)、安全与隐私团队(security and privacy)等等,具体到团队的每个人也有不同职责,有的是负责监控与收集反馈的,有的是制定政策。OpenAI 其实有特别感谢微软安全团队给的建议,因为微软对反垄断、安全、隐私这些问题,有非常深入的理解。在隐私安全方面,OpenAI 原来可能缺乏经验,但与微软的合作能帮助 OpenAI 更好地处理这些问题。

最快被AI取代的职业是哪一种,工程师、设计师、CEO,还是产品经理?


丁教:工程师。


玉典:设计师。


Bill:工程师、设计师、产品经理的初级岗位。


硅谷徐老师:我选 CEO。我当时看到这个问卷的时候,有 11148 个人给出了自己的答案, 31% 认为 CEO 会被取代,30% 上下选择了设计师,选择工程师跟产品经理的人各占 20%,马斯克选择了 CEO。


▲图片来源:推特


从 ChatGPT 出现到 GPT4 出现,这几个月里我跟很多人聊过,并不是所有人都觉得这是一个非常有突破性的事情,比如图灵奖的获得者 Yann LeCun,但 CEO 们普遍认为 ChatGPT 特别神奇,他们会觉得虽然 ChatGPT 的答案并非都是完美的,但至少是用数据讲话,是客观的。很多时候我们做事情,容易屁股决定脑袋,包括 CEO 自己,在股东的压力下、投资人的压力下、客户的压力下,也会做出长期来看并不完美的决策,而在这些时候ChatGPT 完全有可能做出更好的决策。


玉典:分阶段看,初创公司的 CEO 还是扮演很重要的角色,比如把握公司价值观和愿景,调节员工心态;但是当公司逐渐长大,CEO 要处理的问题就更复杂,时间有限且人际关系复杂的情况下,个人偏见容易导致决策失败,付出很大的代价。ChatGPT 的优势就是在短时间内能接收大量信息,从员工想法到报表数据,从整体层面为解决关键问题提供一个更客观的方案。


Bill:如果 CEO 能被替代,可能投资行业的很多人也会消失了,因为投资行业早期很大程度上是在投人。现在 AI 不能做的事情,是如何去设立一个长期的愿景规划,如何做价值判断,很多 CEO 在产品上有极强的直觉和天赋,这些 AI 还做不到。


硅谷徐老师:一个公司不可能没有 CEO,但 CEO 可以把AI 当成一个副手,就像每个飞机的机长都会有一个共同合作的副驾驶员。现在有些场景下,50%-80% 的程序都是 Copilot 写出来的,那以后 CEO 做所有决定中,也有可能 80% 是 AI 帮忙完成。如果 Steve  Ballmer (2000年-2004年微软时任 CEO)有一个 CoPliot CEO,不去买诺基亚,他或许就能再做 10 年微软的 CEO。

GPT4 会带来哪些新机会?


玉典:我之前有一个观点,OpenAI 好像没什么特别强的技术壁垒,但现在越来越觉得,这是一个庞大的系统工程,OpenAI 有普遍适应能力上的强大,而 Jasper,MidJourney 则是对垂直行业的认知、对 OpenAI 能力的认知,以及产品的 know-how,有很深的理解。这种情况就像现在垂直领域 SaaS 企业在报税、人力招聘上的独有优势,Jasper,MidJourney在「微调(fine tune)」上有增强学习的能力,客户粘性高,这就是壁垒。后面大家不一定要自己去搭建模型,更重要的是怎么结合模型来深入满足具体产业的需求。


产品层面,可以考虑怎么结合自然语言交流的形式,用一种低频但长尾的方式,提升用户的交互体验。技术层面,基于大模型的数据优势,初创公司可以考虑用「大模型第一」的方式去重新设计自己的技术,搜索系统、推荐系统都有创新空间。组织效率方面,人员交流成本会大规模降低,头脑风暴变得更容易,想调研一个领域,或者想做公司的估值模型,ChatGPT 加上自主搜索就能实现。不提早拥抱这种技术的公司,很可能被竞争对手淘汰。


硅谷徐老师: 总结一下,一个是颠覆交互,一个是颠覆云计算,另一个是颠覆谷歌搜索。


▲图片来源:小宇宙


硅谷徐老师在「 如何应对ChatGPT?二级市场闭门研讨会精选 | S7E01 硅谷徐老 」这期节目里,也详细分享了有哪些新机会可以探索,欢迎收听。




欢迎在小宇宙、喜马拉雅、Apple Podcasts、Spotify等各大音频平台收听完整音频


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
新年好在通用人工智能的门槛上,你要学什么才不会失业?LeCun:ChatGPT无法实现通用人工智能,但ALM技术路线可以!重新构想人工智能时代的外语教学比尔盖茨:人工智能时代开启,革命性技术再次来临!汪军教授组织了7位AI学者,论道ChatGPT后的通用人工智能理论和应用iPhone 15 Pro‌ Max镜头凸起更小/OpenAI发布通用人工智能路线图/京东百亿补贴确认上线时间微软必应能画图了/ Adobe新AI一句话就能P视频/ 比尔·盖茨最新发文:人工智能时代已经开始…今日更多新鲜事在此北京市大动作:发布通用人工智能产业创新伙伴计划,推进AI大模型研发和应用GPT4 写小说太厉害了,我已经写了几百篇小小说,正在写一篇长篇中共中央政治局会议:重视通用人工智能发展人工智能时代,如何培养孩子的阅读与写作能力?通用人工智能的下一步丨大模型专家访谈科早ChatGPT:如何应对ChatGPT?二级市场闭门研讨会精选 | S7E01 硅谷徐老师我们招人啦!(翻译团队现有一笔20+,博士8人,欢迎加入!也欢迎转发!)人工智能时代,这个49块的编程机器人,让娃两眼放光,0基础也能和新科技接把轨!ChatGPT之父最新观点:通用人工智能是全人类的赌注人工智能时代 | ChatGPT 成功获得谷歌L3工程师offer对话王小川:通用人工智能是一次文艺复兴人工智能时代的算力挑战人工智能时代的工作和生活为什么全人类都呼吁把通用人工智能“管起来”?年年有鱼 春节快乐!祝大家新年快乐!AI大神贾扬清离职阿里首次受访:创业为什么不做大模型(上)| 硅谷徐老师比尔盖茨最新发文: 人工智能时代已经开启(全文)独家专访:OpenAI 的 Sam Altman 谈 ChatGPT 以及通用人工智能如何“打破资本主义”俄乌战争开启了现代战争的人工智能时代OpenAI发布通用人工智能路线图:AGI比想象中来得更快北京出手通用人工智能:产业创新伙伴计划公布,要推动大模型产业加速落地OpenAI最新发布通用人工智能路线图!AGI比想象中来得更快!果壳发布AIGC战略,赋能人工智能时代的超级个体《触摸美国》的意义UCL汪军呼吁创新:后ChatGPT通用人工智能理论及其应用深度剖析:ChatGPT 及其继任者会成为通用人工智能吗?奥威尔在西班牙的奇幻冒险——Homage to Catalonia读后感
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。