本届网友不会允许ChatGPT诞生于中国

公众号新闻

2023-02-13 13:02

来源：冰川思享号（ID: icereview）

作者：魏英杰

这个世界上，喜欢“代表月亮消灭你”的人，不在少数。考虑到这一点，大多数风投公司碰到此类项目，估计都会选择绕开走了。

在过去不到三个月中，chatGPT这款由美国人工智能研究实验室OpenAI推出的应用，红到发紫：

上线5天，注册用户突破百万；今年1月份，每天接受超过1300万用户访问；2月1日，据悉已经实现用户数量破亿，成为史上用户增长最快的一款app……

chatGPT爆火后，尤其是在微软宣布追加投资100亿美元后，整个科技圈、投资圈和资本市场都沸腾了。那些与chatGPT概念相关的上市公司，股价一夜暴涨。国内某知识网站因为与chatGPT沾边的一个传闻，对，仅仅是传闻，盘中股价暴涨超过50%。

而为了对抗chatGPT，谷歌推出的同类产品Bard，只因回答错了一个问题，日内市值蒸发1000亿美元。

图/网络

对于chatGPT，比尔·盖茨评价：“这种人工智能技术出现的重大历史意义，不亚于互联网和个人电脑的诞生。”

马斯克表示：“ChatGPT很惊人，我们离强大到危险的人工智能不远了。”

不过，前者是openAI的投资者，后者则是它的创始人之一，他们说的，只能作为参考。

还有人说，chatGPT让人类站在了“技术奇点”的前夜。言下之意，chatGPT可能让人工智能技术产生爆炸性的飞跃，直至在智力上超过人类。

上一次有人这么说，还是阿尔法狗打败围棋世界冠军的时候。

自然，面对如日中天的chatGPT，国内很多人不免要纠结一个问题：为什么不是中国率先开发出chatGPT？

图/网络

这个问题很复杂，却又容易回答。说白了，一项创新能不能成功，永远都离不开人才、技术、资金和制度环境这几大要素。

实际上，chatGPT并不是什么颠覆性的技术创新，类似的研究开发，很多公司都在做。这就是为什么OpenAI推出GPT-3（也就是目前chatGPT的版本）后，不少互联网公司纷纷跟进，谷歌甚至能够在短时间内推出竞品的原因。

图/网络

chatGPT涉及的NLP（自然语言处理）、深度学习，都不是什么新技术。而GPT-3一出道就惊艳四方，就在于它足够“全面”，使用体验足够“新鲜”，无论是写代码，还是写论文、诗歌，chatGPT都能够胜任，毫无以前类似产品那种冰冷的“机械感”。

这也是为什么，chatGPT对于它不擅长的领域，也能张口就来，一本正经地跟你说一通。

换句话说，chatGPT令人惊叹的地方，在于它“训练有素”，拥有强大的语言理解能力和广泛的应用场景。做到这点，要对大量数据进行不断训练，这就需要大量的资金和算力。

一个可能不为多少人知道的事实，GPT-3其实是不连接互联网的。它的回答都是基于预先加载和训练的数据。所以，chatGPT首页有一个提示：对2021年后的世界和事件的知识了解有限。

图/网络

即便如此，chatGPT所调用的语料库也是非常庞大的。据公开信息，作为目前全世界最强大的语言模型之一，GPT-3是在约三分之二互联网、整个维基百科和两个大型图书数据集中进行训练，其预训练数据足足有 45TB。

有人还专门计算过，GPT-3在训练过程中产生的碳排放量为552吨，相当于126个丹麦家庭每年消耗的能量。

图/网络

多说一句，chatGPT声称，它接受训练的数据包括了文字、图像、音频和视频等信息，但在中文语境中，其训练数据主要来源于文字信息。这或许是chatGPT在中文语境中的表现不如人意的一个原因。

除了海量数据，上面频频提到的训练，也是一件极其耗费资金的事情。据悉，GPT-3的训练依赖于强大的算力，其在微软提供的超级计算机系统上进行训练，该系统拥有超过285000个CPU核心、10000个GPU和每秒400G的网络。数据显示，GPT-3训练一次的费用为460万美元，总成本更是高达1200万美元。

根据《财富》杂志披露，OpenAI2022年的净亏损为5.445亿美元，其中计算和数据支出就高达4亿多美元。按照这样的烧钱法，2015年成立至今的OpenAI应该已经烧掉几十亿美元了吧。

所谓“大力出奇迹”，也不过如此。这些年来，OpenAI一直就是在默默地烧钱，默默地研发，默默地训练模型。这种做冷板凳的笨功夫，足以秒杀绝大多数的初创公司。

不光在中国，如果你是一家初创公司，要做出类似chatGPT这样的产品，人才、技术这些都不去说，首先面临的是资金问题。OpenAI成立八年，前期融资仅微软一家就投了30亿美元（不包括这次公布的100亿美元）。

哪怕初创公司幸运地拿到了投资，我们也不能以“后见之明”来说，它就一定能做成类chatGPT产品。

在这漫长八年中，不仅投资者，包括创始人、研发人员，都不可能那么坚定地相信自己走的路是正确的，也不能预测什么时候能拿出一个颠覆式的创新产品。在这过程中，只要一缺钱，项目就可能半途而废。

这些挫折OpenAI也不是没有经历过。曾经标榜非盈利的OpenAI，后来成立了以盈利为目的的商业公司（OpenAI LP）。

前两年，由于理念分歧，OpenAI创始团队中有人自立门户，另外成立了一家公司，就是谷歌母公司投了3亿美元的Anthropic。这都反映出，在理想与现实、公益与商业等种种矛盾冲突中，OpenAI也曾摇摆不定，有所妥协。

chatGPT也不是什么成熟产品。正因为训练成本高昂而且艰巨，OpenAI才决定公开目前的GPT-3版本，希望借助用户和外部合作伙伴来进一步完善产品。也就是说，当你在和chatGPT对话的时候，其实也是在帮助它提升自己。

图/网络

例如，在中文语境下，chatGPT竟然把《国富论》的作者说成托马斯·洛克（什么鬼），把《2001：太空漫游》的作者说成肯·克拉克（又是什么鬼），但经过几次纠正后，它就能够回答出正确答案了。

所以，在研发类chatGPT上，没有钱万万不行，但有了钱也不一定能行。

即使人才、技术、资金到位，作为初创公司，还会碰到一个强大阻力，就是能不能沉下心来，搜集和准备海量的数据，然后不断地进行模型演练、深度学习，从而由量变引发质变，生成有质量的内容。

这是AIGC（人工智能生成内容）的一个必然过程。

大多数公司，在面对如此浩大的工程面前，不打退堂鼓，也会很鸡贼地钻入一个所谓“垂直赛道”，也就是只在某个领域、某个应用场景进行研发。基于资金和盈利的考虑，这是多数公司会选择的路径。比如我们经常接到的骚扰电话，现在很多都改成由“人工智能”来拨打和播放语音了。

也因如此，这些公司就不可能开发出具有颠覆性的人工智能产品。

但这还不是初创公司会碰到的最大的天花板。

数据的质量，以及产品输出的内容，才是决定初创公司成败的关键。如果你只是想研发一款人工智能客服，这可能相对简单，也能赚钱，但是要想研发出类似chatGPT的大型语言模型，就不可避免地会碰触数据安全、个人隐私、道德正确乃至政治正确等领域。

要得到海量数据，就需要进行大规模的数据文本的收集，而这就会涉及数据安全。如果你没有足够的能力，或者在这方面没有足够的“授权”，产品还没研发出来，公司可能就开不下去了。近年来，一些平台型企业在这方面吃过大苦头。

图/网络

数据的质量也是一个问题。一般来讲，数据是“海”，海水的颜色决定了产品的“成色”。而我们看到，中文互联网上充斥着大量无聊的、重复的、扭曲的信息，特别是那些经过人工修饰、刻意模糊、以谐音字替代的信息，如果不是长年浸淫厮混（这里提示有敏感词）其中的人，往往“不明觉厉”（这又是一个典型）。

这对于语言模型的训练来讲是非常不利的，不仅会增加大量成本，也将影响到产品的最终质量。

目前，GPT-3面临不少争议，包括被质疑涉及技术滥用和内容不道德风险等问题。如脸书的AI部门主管公开指责GPT-3不安全，他用GPT-3生成的一则推文蕴含种族歧视和暴力血腥信息。

在很大程度上，这是chatGPT无法避免的问题，甚至可能成为他的“原罪”。

这在不同的国家和地区，可能面临的后果又是不一样的。尤其是对于初创公司来讲，一款聊天机器人产品乱飚脏话、性别歧视、开“地图炮”，甚至涉及其他“道德不正确”或“政治不正确”问题，结果都可能是致命的。

不说别的，连广大网友都不会允许这么一款产品的存在。这个世界上，喜欢“代表月亮消灭你”的人，不在少数。考虑到这一点，大多数风投公司碰到此类项目，估计都会选择绕开走了。

当然，这不是说我们永远也做不出chatGPT这样的产品，相反，我们很快就会拥有声称能对标chatGPT的聊天应用。

比如“说干就干”的百度已经宣布，3月份将上线类似chatGPT的产品，名字都起好了。

初创公司要通过融资、研发、训练和上线类似chatGPT的产品，非常艰难。但是，在互联网行业发达的国内，有实力做出类似chatGPT产品的科技企业，不止一家。

图/网络

中国哪家企业能打造出中国版的chatGPT？对此chatGPT的回答是：百度、阿里、腾讯。不过，我觉得这个答案过于保守，如果从资金和技术能力看，这份名单后面还可以继续添加。

只不过，基于前面所说的种种因素，哪怕是这些实力雄厚的科技企业，开发出来的中国版chatGPT，也不会是真正意义上的chatGPT。这些公司尽管有充裕的资金、雄厚的技术以及丰富的经验，但也更加追求“确定性”，他们不可能像OpenAI那样，在产品还“不完善”的前提下，就将其推向市场。

但无论如何，我们很快将会有自己的chatGPT，不管它是不是叫chatGPT，也不论它在多大程度上拥有chatGPT的技术内涵，以及改变世界的力量。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章