同ChatGPT揭示的AI发展浪潮中的关键节点的意义相比,ChatGPT本身的缺陷和孱弱的商业化前景都显得渺小了不少。更何况,对许多从业者来说,ChatGPT暴露出来的缺点并非不可解决。其中一个为许多人指摘的是所谓数据库时限问题。ChatGPT训练是基于一个固定的数据库,截止日期是2021年9月,也就是说ChatGPT无法掌握从那以后世界上发生的任何事的信息,从iPhone 14的发布到美国期中选举,甚至今天的天气状况都不行,在这个方面,ChatGPT的表现甚至赶不上时下任何一款智能语音助手。但从技术层面这个问题并不难解决。实际上,根据外媒爆料,和Open AI 达成战略合作关系的微软即将在3月推出具有AI对话能力的新版必应Bing,它的原理正是将搜索引擎同ChatGPT的能力相结合,甚至,微软还打算在Office 套件中引入相应的能力。最为引人关注的成本问题,在算法层面同样有许多优化迭代的思路。比如,既然ChatGPT在回答问题过程中通过专门的针对训练很好展示了机器模拟人行为的能力,那么在算法层面,让ChatGPT通过模仿人查阅资讯的方式,在涉及纯粹知识和信息的问题时不再调用本身数据库而是直接从网络抓取内容将是非常值得探索的方向。如此一来,大模型可以在不降低自身表现的情况下缩小规模,训练成本也将随之降低。至于商业化落地场景,除了已经比较确定的文本生成、智能助手领域外,实事求是的说,还有大片的荒芜地带亟待开发,但不少从业者都表示了乐观。“难的是从0到1的原始创新,至于后面的都不是问题。”一位供职于大厂的AI研究从业者说道,“尤其在中国,市场这么大,大家又这么卷,既然大模型的路子被证明是可行的,那么很快所有的聪明人都会加入进来。”Sheng同样预计,短则一两年,就会出现基于预训练大模型的商业化产品。
必须攀登的山峰
事实上,今年在投资领域,AI是少有的异军突起的热门赛道。然而成本像一道紧箍咒,束缚着每个自身不具有预训练大模型开发能力的玩家。ChatGPT这样级别的预训练大模型跑一次的成本是千万美元级别,而将其商业化部署,落地到类似聊天机器人这样多用户高并发任务中,成本只会更高。小冰CEO李笛给出的一个估计数字是3亿每天。这也就意味着,国内够资格玩这场烧钱游戏的只能是极个别组织,大部分的初创企业,乃至许多高校,都会被这样的高昂成本“劝退”。Sun 是来自一家国内一线投资机构的投资经理,在看过无数AI相关项目的PPT后,他今年一次都没有出手:“商业化项目是很现实的,你是不是掌握了核心技术?你的竞争壁垒又有多高?”很少有中国企业能够回应这样的诘问。在这种情况下,想要让产品具有AI能力,只能调用公开的大模型接口(比如GPT3.0),等于让自己的核心能力掌握在别人手中。一个非常残酷的例子是Jasper.AI。文本生成领域估值一度高达15亿的Jasper.AI同样在底层调用GPT3.0模型,在ChatGPT 几乎是没有预警的横空出世后,Jasper的业务立刻受到冲击(这个故事被the information 写成了一篇报道 ),因为Jasper 的收费计划最便宜的也高达29美元,且只能生成20000个单词,相比之下,ChatGPT的使用成本简直可以忽略不计,而交互和效果甚至更好。更何况,OpenAI本身也面临着经营压力。从OpenAI内部传出的消息说,预训练大模型的成本之高,OpenAI同样也叫苦连天,从GPT3.0后OpenAI的模型不再开源,而是力推其订阅付费服务(Jasper即是向OpenAI缴纳一定的费用从而获得GPT调用接口)。开发属于自己的大模型,显然是每个在AI领域有野心的企业所应该做的事。国外们的巨头行动很快,除了OpenAI,提出transformer模型的Google同样拥有专门针对对话应用的大语言模型LaMDA和多模态任务模型MUM,这两个模型被认为与ChatGPT拥有相同的能力。而在硅谷,像Perplexity、YouChat这样的创业公司也正在大预言模型的基础上开发新的聊天机器人。OpenAI也预示了GPT4.0的存在,从版本号上就能看出,届时这个业界领先的大语言模型将有进一步的能力提升。因此对中国来说,时不我待,预训练大模型是一块必须啃下来的硬骨头,中国绝不能错过这场AI“军备竞赛”。不仅因为一味模仿或者寻求开源模型接口支持,等于让别人始终掌握掐脖子的科技主动权,同时也将在未来的AI产业竞争中处于不利地位。Sun举了个或许不太贴切的例子:质能方程在1905年就由爱因斯坦提出,原子弹在40年后的1945年由美国人试爆成功,而新中国为了掌握这项技术,又花了近20年时间。一日千里的AI技术发展不会给中国这么长的追赶时间。好消息是,AI技术并不像芯片制造一样有着高不可攀的技术壁垒,尽管没有公布ChatGPT的论文,但不止一位AI工程师表示,仅靠现在公开的知识,顶级AI工程团队很大概率就能复现和ChatGPT差不多的模型,因为“技术本身都是现成的。”坏消息则是,留给我们的时间已经不多。如果说ChatGPT诞生来自巨量资金的投入、充分的技术和人才储备,这些条件国内巨头们尚能够勉强满足的话,那么随着时间推移,如果不在目前这个非常重要的机会窗口期迎头赶上,算法迭代所累积的经验将给以OpenAI为代表的AI公司带来结构性的技术壁垒与代差,这种代际差一旦形成,再想追赶将分外吃力。虽然机器本质上仍然无法思考或创新,但预训练大模型“涌现”出的“智能”以及它出色的泛化能力,将使得AI产业本身不再成为一个赛道,而是演变为类似石油、电网一样的基础生产力资源,彻底改变整个信息产业的格局。经过十多年的发展,基于深度学习框架的AI浪潮已经找到了一个明确的发力方向,随之而来的将会是如同西部掘金大潮一般的热烈景象,无数机会和突破将涌现出来,想要在这场烈火烹油的AI革命中跟上,我们必须拥有属于自己的ChatGPT。否则让它跑太远,再追就来不及了。
参考资料:
ChatGPT进化的秘密
https://zhuanlan.zhihu.com/p/593519656
The Best Little Unicorn in Texas: Jasper Was Winning the AI Race—Then ChatGPT Blew Up the Whole Game