本届网友不会允许ChatGPT诞生于中国公众号新闻2023-02-13 13:02来源:冰川思享号(ID: icereview)作者:魏英杰这个世界上,喜欢“代表月亮消灭你”的人,不在少数。考虑到这一点,大多数风投公司碰到此类项目,估计都会选择绕开走了。在过去不到三个月中,chatGPT这款由美国人工智能研究实验室OpenAI推出的应用,红到发紫:上线5天,注册用户突破百万;今年1月份,每天接受超过1300万用户访问;2月1日,据悉已经实现用户数量破亿,成为史上用户增长最快的一款app……chatGPT爆火后,尤其是在微软宣布追加投资100亿美元后,整个科技圈、投资圈和资本市场都沸腾了。那些与chatGPT概念相关的上市公司,股价一夜暴涨。国内某知识网站因为与chatGPT沾边的一个传闻,对,仅仅是传闻,盘中股价暴涨超过50%。而为了对抗chatGPT,谷歌推出的同类产品Bard,只因回答错了一个问题,日内市值蒸发1000亿美元。图/网络对于chatGPT,比尔·盖茨评价:“这种人工智能技术出现的重大历史意义,不亚于互联网和个人电脑的诞生。”马斯克表示:“ChatGPT很惊人,我们离强大到危险的人工智能不远了。”不过,前者是openAI的投资者,后者则是它的创始人之一,他们说的,只能作为参考。还有人说,chatGPT让人类站在了“技术奇点”的前夜。言下之意,chatGPT可能让人工智能技术产生爆炸性的飞跃,直至在智力上超过人类。上一次有人这么说,还是阿尔法狗打败围棋世界冠军的时候。01自然,面对如日中天的chatGPT,国内很多人不免要纠结一个问题:为什么不是中国率先开发出chatGPT?图/网络这个问题很复杂,却又容易回答。说白了,一项创新能不能成功,永远都离不开人才、技术、资金和制度环境这几大要素。实际上,chatGPT并不是什么颠覆性的技术创新,类似的研究开发,很多公司都在做。这就是为什么OpenAI推出GPT-3(也就是目前chatGPT的版本)后,不少互联网公司纷纷跟进,谷歌甚至能够在短时间内推出竞品的原因。图/网络chatGPT涉及的NLP(自然语言处理)、深度学习,都不是什么新技术。而GPT-3一出道就惊艳四方,就在于它足够“全面”,使用体验足够“新鲜”,无论是写代码,还是写论文、诗歌,chatGPT都能够胜任,毫无以前类似产品那种冰冷的“机械感”。这也是为什么,chatGPT对于它不擅长的领域,也能张口就来,一本正经地跟你说一通。换句话说,chatGPT令人惊叹的地方,在于它“训练有素”,拥有强大的语言理解能力和广泛的应用场景。做到这点,要对大量数据进行不断训练,这就需要大量的资金和算力。一个可能不为多少人知道的事实,GPT-3其实是不连接互联网的。它的回答都是基于预先加载和训练的数据。所以,chatGPT首页有一个提示:对2021年后的世界和事件的知识了解有限。图/网络即便如此,chatGPT所调用的语料库也是非常庞大的。据公开信息,作为目前全世界最强大的语言模型之一,GPT-3是在约三分之二互联网、整个维基百科和两个大型图书数据集中进行训练,其预训练数据足足有 45TB。有人还专门计算过,GPT-3在训练过程中产生的碳排放量为552吨,相当于126个丹麦家庭每年消耗的能量。图/网络多说一句,chatGPT声称,它接受训练的数据包括了文字、图像、音频和视频等信息,但在中文语境中,其训练数据主要来源于文字信息。这或许是chatGPT在中文语境中的表现不如人意的一个原因。除了海量数据,上面频频提到的训练,也是一件极其耗费资金的事情。据悉,GPT-3的训练依赖于强大的算力,其在微软提供的超级计算机系统上进行训练,该系统拥有超过285000个CPU核心、10000个GPU和每秒400G的网络。数据显示,GPT-3训练一次的费用为460万美元,总成本更是高达1200万美元。根据《财富》杂志披露,OpenAI2022年的净亏损为5.445亿美元,其中计算和数据支出就高达4亿多美元。按照这样的烧钱法,2015年成立至今的OpenAI应该已经烧掉几十亿美元了吧。所谓“大力出奇迹”,也不过如此。这些年来,OpenAI一直就是在默默地烧钱,默默地研发,默默地训练模型。这种做冷板凳的笨功夫,足以秒杀绝大多数的初创公司。02不光在中国,如果你是一家初创公司,要做出类似chatGPT这样的产品,人才、技术这些都不去说,首先面临的是资金问题。OpenAI成立八年,前期融资仅微软一家就投了30亿美元(不包括这次公布的100亿美元)。哪怕初创公司幸运地拿到了投资,我们也不能以“后见之明”来说,它就一定能做成类chatGPT产品。在这漫长八年中,不仅投资者,包括创始人、研发人员,都不可能那么坚定地相信自己走的路是正确的,也不能预测什么时候能拿出一个颠覆式的创新产品。在这过程中,只要一缺钱,项目就可能半途而废。这些挫折OpenAI也不是没有经历过。曾经标榜非盈利的OpenAI,后来成立了以盈利为目的的商业公司(OpenAI LP)。前两年,由于理念分歧,OpenAI创始团队中有人自立门户,另外成立了一家公司,就是谷歌母公司投了3亿美元的Anthropic。这都反映出,在理想与现实、公益与商业等种种矛盾冲突中,OpenAI也曾摇摆不定,有所妥协。chatGPT也不是什么成熟产品。正因为训练成本高昂而且艰巨,OpenAI才决定公开目前的GPT-3版本,希望借助用户和外部合作伙伴来进一步完善产品。也就是说,当你在和chatGPT对话的时候,其实也是在帮助它提升自己。图/网络例如,在中文语境下,chatGPT竟然把《国富论》的作者说成托马斯·洛克(什么鬼),把《2001:太空漫游》的作者说成肯·克拉克(又是什么鬼),但经过几次纠正后,它就能够回答出正确答案了。所以,在研发类chatGPT上,没有钱万万不行,但有了钱也不一定能行。即使人才、技术、资金到位,作为初创公司,还会碰到一个强大阻力,就是能不能沉下心来,搜集和准备海量的数据,然后不断地进行模型演练、深度学习,从而由量变引发质变,生成有质量的内容。这是AIGC(人工智能生成内容)的一个必然过程。大多数公司,在面对如此浩大的工程面前,不打退堂鼓,也会很鸡贼地钻入一个所谓“垂直赛道”,也就是只在某个领域、某个应用场景进行研发。基于资金和盈利的考虑,这是多数公司会选择的路径。比如我们经常接到的骚扰电话,现在很多都改成由“人工智能”来拨打和播放语音了。也因如此,这些公司就不可能开发出具有颠覆性的人工智能产品。03但这还不是初创公司会碰到的最大的天花板。数据的质量,以及产品输出的内容,才是决定初创公司成败的关键。如果你只是想研发一款人工智能客服,这可能相对简单,也能赚钱,但是要想研发出类似chatGPT的大型语言模型,就不可避免地会碰触数据安全、个人隐私、道德正确乃至政治正确等领域。要得到海量数据,就需要进行大规模的数据文本的收集,而这就会涉及数据安全。如果你没有足够的能力,或者在这方面没有足够的“授权”,产品还没研发出来,公司可能就开不下去了。近年来,一些平台型企业在这方面吃过大苦头。图/网络数据的质量也是一个问题。一般来讲,数据是“海”,海水的颜色决定了产品的“成色”。而我们看到,中文互联网上充斥着大量无聊的、重复的、扭曲的信息,特别是那些经过人工修饰、刻意模糊、以谐音字替代的信息,如果不是长年浸淫厮混(这里提示有敏感词)其中的人,往往“不明觉厉”(这又是一个典型)。这对于语言模型的训练来讲是非常不利的,不仅会增加大量成本,也将影响到产品的最终质量。目前,GPT-3面临不少争议,包括被质疑涉及技术滥用和内容不道德风险等问题。如脸书的AI部门主管公开指责GPT-3不安全,他用GPT-3生成的一则推文蕴含种族歧视和暴力血腥信息。在很大程度上,这是chatGPT无法避免的问题,甚至可能成为他的“原罪”。这在不同的国家和地区,可能面临的后果又是不一样的。尤其是对于初创公司来讲,一款聊天机器人产品乱飚脏话、性别歧视、开“地图炮”,甚至涉及其他“道德不正确”或“政治不正确”问题,结果都可能是致命的。不说别的,连广大网友都不会允许这么一款产品的存在。这个世界上,喜欢“代表月亮消灭你”的人,不在少数。考虑到这一点,大多数风投公司碰到此类项目,估计都会选择绕开走了。04当然,这不是说我们永远也做不出chatGPT这样的产品,相反,我们很快就会拥有声称能对标chatGPT的聊天应用。比如“说干就干”的百度已经宣布,3月份将上线类似chatGPT的产品,名字都起好了。初创公司要通过融资、研发、训练和上线类似chatGPT的产品,非常艰难。但是,在互联网行业发达的国内,有实力做出类似chatGPT产品的科技企业,不止一家。图/网络中国哪家企业能打造出中国版的chatGPT?对此chatGPT的回答是:百度、阿里、腾讯。不过,我觉得这个答案过于保守,如果从资金和技术能力看,这份名单后面还可以继续添加。只不过,基于前面所说的种种因素,哪怕是这些实力雄厚的科技企业,开发出来的中国版chatGPT,也不会是真正意义上的chatGPT。这些公司尽管有充裕的资金、雄厚的技术以及丰富的经验,但也更加追求“确定性”,他们不可能像OpenAI那样,在产品还“不完善”的前提下,就将其推向市场。但无论如何,我们很快将会有自己的chatGPT,不管它是不是叫chatGPT,也不论它在多大程度上拥有chatGPT的技术内涵,以及改变世界的力量。微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章