Redian新闻
>
GPT4震撼发布!最大变革在「一切数据Token化」

GPT4震撼发布!最大变革在「一切数据Token化」

Science/technology
 点击订阅,抓住风口

你好,我是王煜全,这里是王煜全要闻评论。


3月15日凌晨,OpenAI正式发布了大家期待已久的GPT-4,很快就在中外科技圈刷屏了。


这款新的AI大模型确实拿出了一些新东西,不但理解能力、可靠性、输入处理长度上都有显著提高,还有一个重大进化——拥有了多模态的能力,简单说就是不仅能看懂文字,也能看懂图片了。



在OpenAI的技术分享和视频演示中,展示了GPT-4在各种标准下的性能提升,比如实事求是回答问题的可能性提高了40%;律师模拟考试成绩从ChatGPT的后10%,直接冲进了前10%,超过了大多数人;看图表完成数据分析、找到搞笑图片中的笑点也不在话下。


不少媒体可能受发布会演示的影响,注意力都集中在这些直观的指标上,不停渲染GPT-4的各种能力多强。


在我看来,这些都是AI技术调优下正常的性能提升,真正值得关注的,是实现图片和文字同时处理的多模态能力,这个能力的底层预示着的其实是「一切数据Token化」的新变革。


为什么这么说呢?


首先,如果你了解AI技术的进步趋势,就会明白今天的这些性能提升是必然的事情。


虽然OpenAI以竞争和安全为由,没有公布GPT-4的任何技术细节,只发布了份手机测评一样的《技术报告》(GPT-4 Technical Report)。


但从模型性能提升的情况看,理解能力、可靠性这几个关键指标的提高,主要是来自于AI模型算法架构和数据集的改进,简单说就是AI的工程调优,具体的技术趋势我们早已介绍过了。

2月14日的要闻里(点击跳转阅读),我跟大家谈过AI大模型的「伸缩法则」,当时就提到了OpenAI和谷歌的Deep mind关于AI参数和数据关系的研究,简单说AI大模型中参数规模也不是越大越好,必须和数据匹配才行。
 
第二天,谈Bing上线ChatGPT的时候(点击跳转阅读),继续和大家聊了,目前训练AI大模型的数据用到了1.4 万亿token,数据瓶颈摆在眼前,谷歌和OpenAI都在做算法架构上的优化。

了解这些,你就会明白为什么发布会前盛传,GPT-4参数超过100万亿的说法不靠谱,也就能理解性能提升是很正常的事情。



接着,我们就来聊聊为什么多模态技术底层是「一切数据Token化」的变革。


这里先要区分一下,「数据Token化」的概念其实很早就已经出现,最初是作为互联网上数据加密的一种思路,后来还被Web3领域借鉴过去,演化成通过Web3存储数据的方法。


不过我们今天要说的Token是AI大模型的数据单位,「一切数据Token化」指的是AI大模型加持下,文字、图片、声音所有数据都能被统一处理的新变革。


2022年6月,我在大数据专题和大家聊过互联网产业兴盛之后,人类社会中80%以上的数据都是图片、音频、视频等等非结构化的数据,这些数据不像文字、字符一样能被计算机处理,如何挖掘这些数据背后的价值成为大数据变革的一大方向。


当时我预测AI会是这轮变革中重要的颠覆力量,如今OpenAI用实际行动证明了这个趋势正在到来。


AI大模型能使用多种类型的数据训练,其实已经是非常常见的事了。


OpenAI自己的AI绘画软件Dall-E就是基于GPT-3,用图片数据训练出来的,他们之前还做过分享,一张图片最长会被转化为1024个Token,打个不准确的比方,相当于所有图片都会拉成一个长条,AI是通过这些长条上的数据掌握经验的。


谷歌去年5月在这方面做的更为极致,他们将图片、文字、机器坐标等数据全部Token化,AI经过训练后分类掌握各种经验,然后根据实际情况,匹配对应Token中的经验,一下就拥有了完成600多种任务的能力。


GPT-4这次实现的多模态进化则是再前进了一步,以前图片数据训练出的AI也就是用于生成图片,或者识别某些具体的物品,这次体现出对图片信息更强的理解能力,提供了图片数据处理的新方案,这背后潜在的价值难以估量。


由此我们也会看到,AI的数据需求同样还会继续爆发,在文字数据之后,各种图片数据的标注需求将是新的热点。



我可以这样说,未来所有的数据都会Token化,衡量数据质量的标准将不再是清晰、完整这些为人服务的指标,而是能拿来训练AI的数据才是好数据。


可以说,数据Token化,就相当于石油精炼成汽油的过程,会使得人工智能这个发动机得到广泛运用,最终无所不在。未来各个领域的人工智能水平,甚至能用Token化的数据量大小来做评估。


以上是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享。欢迎关注全球⻛口微信号,报名加入!


王煜全要闻评论,我们明天见!

我们还整理了一份“GPT-4技术报告(中文版)清单,辛苦你点下“赞”和“在看”,点击顶部的“进入公众号”,在对话框里发送“科技”二字,你就会获得这份清单。
清单每天更新,所以请跟上全球风口的节奏;如果想要所有行业清单,扫码加入科技特训营,分分钟就可尽在掌握!

【科技特训营】全新的会员订阅制线上书院模式,全年50次“在线直播课程+私享群互动”,你随时可以加入、我持续保持更新!一起互动,伴随成长!让我们为未来五年做好准备,一起探讨把握机遇,决胜未来!

【回放地址】
长按图片识别二维码报名加入,可观看所有直播和回放。
1. 前哨科技特训营直播全年共50讲+,除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容,实际平均时长为2小时。
3. 每周四晚八点准时直播,会员可无限次观看回放。
4. 新入会员,可以无限次回看之前所有视频课程。
5. 本课程为虚拟内容服务,年费订阅服务制。一经订阅概不退款,请您理解。

课程咨询】
请加“创新地图助手”:
微信:innovationmapSM

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中医药就是吃饭喝水,夜宿早起Value of $10,000 invested 12 years ago:人手一个ChatGPT!微软DeepSpeed Chat震撼发布,一键RLHF训练千亿级大模型何时起,“骰子”不读shǎi,改读tóu了?AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种一次10万token!GPT4最强对手史诗升级,百页资料一分钟总结完毕今日重点:俄罗斯战斗机撞毁美国无人机,ChatGPT4功能逆天,百度AI明迎战,阿联酋脑部间谍公司购入Tiktok一句话拍大片,导演末日来了!Gen-2震撼发布,科幻日系二次元统统拿捏2023 GAIDC 大会 "十大亮点" 震撼发布GPT4震撼发布,但想体验的人可以再等等!对了,我开了个ChatGPT、GPT4.0分享课GPT4震撼发布!哈佛教授:程序员职业3年内将被终结GPT-4震撼发布!碾压ChatGPT,强大到没对手?全网沸腾!GPT-4震撼空降,看图玩梗参加高考、10秒生成网站,太太太强了![干货] ChatGPT 创始人用5个词评价 GPT4GPT-4震惊四座,中国创业者激战「小模型」|Future「元宇宙」之父:不存在「一个」元宇宙,AI 替代不了艺术家GPT-4 震撼发布,能读图,考高分,训练更高效GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?雅典表震撼发新!为什么这块“三无”腕表,能领先时代20年?GPT-4震撼发布:会颠覆和改变什么?民心、深国交、哈罗都考的 —— CAT4测试如何准备? 重磅CAT4真题分享中信建投:GPT4及ChatGPT相关应用梳理特斯拉叫停与比亚迪合作?马斯克回应;中国一公司从硅谷银行取回6亿存款;GPT-4震撼发布;海底捞禁止单点清水锅丨邦早报GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!从“吃饭砸锅”解析“动态清零”的脆断GPT4震撼来袭,AI会改变世界?早早做准备吧!GPT-4震惊四座,中国创业者激战「小模型」丨Future下雨了我就在家里练练手!GPT-4来了!一切数据都将Token化北京娘们,真牛!Stable Diffusion又出大招!「文生动画」震撼发布淘汰导演,DC英雄一秒变身GPT-4偷袭发布!ChatGPT能识图和逻辑推理,靠自己考上斯坦福【附发布会中英文字幕版】最新!GPT-4震撼发布! 【强智能时代】就业巨变,学生该如何应对…几行代码,GPT-3变ChatGPT!吴恩达高徒、华人CEO震撼发布Lamini引擎
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。