Redian新闻
>
掣肘中国版ChatGPT的三大难题

掣肘中国版ChatGPT的三大难题

公众号新闻

"ChatGPT火遍全球后,国内科技圈开始频频发力,多家科技和互联网公司纷纷表示将开发中国本土化的ChatGPT

编辑| Tian

出品 | 青投创新


ChatGPT需要通过不断获取大量数据进行自主学习并完成迭代的AI支持,对于AI技术的长期发展与积累储备有着很高的要求,因此这并不如其它APP一般,能从软件方向上进行简单的借鉴与复制转而本土化。


尽管国内目前已经有类似于ChatGPT的对话机器人运用在智能客服的场景中,但相较之ChatGPT自然语言处理的能力与接近99.9%的理解力,差距还是很大的。


NLP已成全球化大势所趋时,国内要想诞生一款ChatGPT,难度在哪些方面?



01


硬件与成本


OpenAI开发ChatGPT是基于GPT-3.5的预训练语言模型和人类反馈强化学习技术,核心是谷歌推出的自然语言处理transformer的算法和架构。


ChatGPT在对语言进行分析和理解时,需要有参数支持,类似于神经网络,初代ChatGPT就有超过40亿个参数,而上一代GPT-3已经有1750亿个参数。


国内实验室目前做过最大的模型是有10亿个参数,ChatGPT是国内模型的175倍。根据微软的数据,OpenAI可提供给ChatGPT的算力包括28.5万个CPU1万个英伟达A100GPU,按照GPT-31750亿个参数来算,训练一次需要耗费1200万美元,每日电费在5万美元,初始投入就达到8亿美元。


微软宣布下一步将ChatGPT嵌入搜索引擎Bing中,完成单次搜索需要超过50万台服务器和410万个GPU,而这些成本总和将超过1000亿美元。


虽然国内已经有很多可以支持计算的处理器,比如寒武纪、飞腾、海光等,但最大的问题是做不了高制成,仅仅能做到28nm,这会导致芯片密度降低,能耗更高,因此在芯片数量上就要比英伟达多出23倍。


而由于美国的限制,英伟达的A100对我国禁运,即就是在CPUGPU的连接之间无法用到NVLink,这就导致数据传输时间将变长,效率变低,这对于训练自然语言模型时的影响非常大。


无论从算力支持还是训练成本上看,目前国内要实现ChatGPT都是比较困难的。


此次ChatGPT能迅速在全球范围内爆火,离不开微软在云计算基础设施方面的发展和积累,国内互联网大厂腾讯阿里等也都有自己的云计算平台,但追赶微软还需很长一段时间。



02


数据与语料

ChatGPT能在自然语言处理、文本生成和人机对话上有惊人的表现,除去硬件支持外,大量数据获取下的语料库建立也是很关键的。


训练语言模型一定需要不断给予其更新的文本内容,帮助模型学习语言和获取知识,以此来构建语料库,能理解自然语言并生成高质量准确的答案文本。


获得不断更新的文本内容,就需要通过网站和自有平台进行信息爬取,Common Crawl是美国的非营利性组织,负责抓取网络并免费向公众提供其档案和数据集,这个组织就是ChatGPT语料库建立的主要来源之一。


英文语料库的建立对于ChatGPT而言并不难,除去上述组织,还有全球各地的网站、Bing搜索引擎、维基百科等等,但是对于中文来说就并不像英文那么容易。


一方面是在英文网站和搜索引擎内中文信息与资料并不全面,在ChatGPT国内热度起来后,就有网友表示自己在ChatGPT里所问的中英文问题回答的质量并不一致。另一方面,国内互联网如百度、微信、360、科大讯飞等在简体中文之外获取的信息有限,而像知乎、微博、网文网站等同样缺乏非简体中文的内容全面性。


因此无论是国内自然语言模型的训练还是对于ChatGPT,中文语料库都是亟待解决的问题。


03


应用场景

既然开发ChatGPT的硬件成本如此高,即使未来国内有科技公司完成了中国版ChatGPT的开发,如何应用在生活中体现其商业价值也是需要考虑的。


正如上文所述,国内目前已经有企业尝试在智能客服环节运用类ChatGPT的人机对话AI机器人,但仅仅是将传统对话模式简单移植到AI平台,并没有改变用户与产品之间的交互方式,也没能提高产品服务的效率,无法体现AI的实际价值。


这就与传统燃油车转型新能源只是简单的油改电一样,很多可预见的实际应用场景,目前的发展方向还都只是用AI取代真人来完成,比如文案工作、新闻工作、设计师、人力资源、音乐创作等,但从学习的方式、工作的模式、沟通的便捷性等多个方面没有变革性的改变。


并且由于中文语料库的匮乏,即便自然语言模型能胜任以上场景,但结果与效率上也并不能令人满意。


因此,国内ChatGPT的商用暂时也就无法实现。


ChatGPT的出现,让AI产业的发展与AI开发模式明确了未来的方向,在自然语言模型能更加全面,AI产业链更加完善的未来,中国版ChatGPT也许会很快到来。



「往期推荐」


打压不断!TikTok在美国遭遇被禁风波

微软对OpenAI投资百亿美元,抢占AI领域先机



END


欢迎全国各地以及境外科技产业及金融精英,寻找优质项目、资金及获得全球顶级金融圈层请联系Alex,或者在菜单中点击【青投服务】——>【服务登记】,留下您的需求我们将竭诚为您服务。




「青投创新」
青投创新,新型科创产业服务平台,以科技、人才、资本为核心,通过内容出版、数据支持、产业咨询、科技转化等业务,为科技人才创业项目提供孵化及加速赋能服务,助力国家科技兴国计划。

「青年投资家俱乐部」
青年投资家俱乐部汇聚来自金融机构、政府机构、上市公司、产业公司、三方服务的数万名专家资源。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
在奥地利自驾:瓦豪河谷和最美湖区科大讯飞回应了:中国版ChatGPT可以乐观以待,有信心实现类似技术跃迁百度这些年到底在干什么?揭秘即将官宣的中国版ChatGPT文心一言背后的故事!对话元语智能创始团队:做中国版ChatGPT,为什么坚持大模型开源路线?|甲子光年服务器一夜挤爆!复旦发布中国版ChatGPT出师不利谁能做出中国版ChatGPT?怎么做?出资3亿打造中国版ChatGpt,原美团创始人王慧文再创业;字节跳动关闭TikTok印度业务;高盛CEO称公司裁员太晚丨雷峰早报中国版ChatGPT「MOSS」服务器被挤爆,复旦团队致歉:还不成熟中国版ChatGPT「狂飙」,科大讯飞冲刺入局!抢中国版ChatGPT首发的公司们前京东技术掌门人周伯文发布「AI英雄帖」,中国版ChatGPT人才争夺潮继续|最前线中国版ChatGPT来了,三月份公测!比尔·盖茨:人工智能将是今年最热门的话题!早鸟报|字节跳动加入中国版chatgpt之战;霸王茶姬回应包装擦边迪奥;耐克阿迪代工厂大裁员...百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此中国版ChatGPT来了!4000亿巨头也被爆炒,股价直线拉升15%!李蓓最新观点出圈,权益资产大幅减仓小冰CEO李笛:小冰链不是中国版ChatGPT复旦发布中国版ChatGPT:MOSS开启测试冲上热搜,服务器挤爆ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇联想小新大规模黑屏死机致千人投诉;字节跳动布局中国版ChatGPT:搜索、智创两部门牵头;微信官方处理3.5万个账号丨雷峰早报退休警察老Dan (3)突发利空,中移动减持!复旦放大招:中国版ChatGPT来了,名字叫"MOSS"!大利好,私募基金可投住宅!河南人口负增长中国版ChatGPT角逐战,国际权威机构为百度背书被网友挤崩了!复旦发布中国版ChatGPT,中文竟不如英文好…军旅故事原创系列(16)蟹趣退休3年的美团创始人出山!王慧文带资5千万美元打造中国版ChatGPT重新思考 “女大男小” 婚姻之利弊人类“3.0”意识形态战场——ChatGPT的政治化终局ChatGPT的价值观及立场(四)伯克利逝去的年轻生命科大讯飞被曝加紧开发中国版ChatGPT,具体发布时间已确定打造中国版ChatGPT,这是国内最有实力的一批NLP团队与人才(更新版)打造中国版ChatGPT,国内有哪些学术力量能抢滩?我们不需要中国版ChatGPT前京东 AI 负责人周伯文掌舵,衔远科技完成数亿元天使轮融资,将探索中国版ChatGPT新道路做中国版ChatGPT,还有一个「隐身」大玩家李嘉诚蝉联香港首富;海底捞禁止自带食材;平台回应外卖骑手送餐时猝死;字节跳动加入中国版ChatGPT之战...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。