ChatGPT 的中文语料问题
国内科技行业的朋友们在讨论 ChatGPT 的时候,有个错误的观点:中文互联网没有高质量语料。
为什么这么说呢?因为 ChatGPT 这事儿咱落后了,落后的原因之一就是中文互联网没有高质量语料。这个似是而非的观点居然能被不少人接受。
如果中国互联网公司做 ChatGPT,会不会因为中文语料问题而导致产品不行呢?
那我想问,OpenAI 这个团队用的什么样的中文语料?不也是来自网络上公开的中文内容吗?难道他们有什么渠道能拿到别人拿不到的语料?
这不难理解的吧?
过去也有人问我,说你们团队做的「就诊问问」这玩意儿,训练的数据和内容来自哪里呢?我的观点:其实公开的信息和内容就足够,就能做很多事情了,根本不需要所谓的各种独家内容。就算做不成,那也是技术和产品不行,而不是因为数据内容不行。当然我们也不好意思说这是人工智能,只是用相关技术打造的产品而已。
就诊问问·小程序版
ChatGPT 说:我们不应该将技术的成败归咎于语料的质量,而是要看技术和产品的表现。
大家能用的语料基本上是同一层面的,也就不存在「高质量」与否的比较。
OpenAI 做出来 ChatGPT 不是他们掌握了什么关于语料内容的秘技。这就好比一个高明的厨师做菜并不一定用的都是独家食材一样,难点之一在于做菜的方法。
甚至都不用列举什么具体的数据。比如有多大比例来自 WebText 2,有多大比例来自 WikiPedia。
只需要基本的逻辑分析就行。
在语料问题上,各家参与者不会有什么区别。
说「中文互联网没有高质量语料」多少带一点妄自菲薄的心态。现阶段尤其不应该妄自菲薄。
结论是,英文语料,大家都可以拿到一样的内容。而中文,甚至是更有优势。因为,国内参与 ChatGPT 的公司或团队各自有自己的封闭内容。
题图:由 DeepAI 创建
题外话,ChatGPT 是怎么看待这个问题的呢?
我认为中文互联网确实存在大量的高质量语料,并且像 OpenAI 和其他公司都已经成功地利用这些语料来训练语言模型。因此,在进行类似 ChatGPT 这样的技术开发时,语料并不是决定性因素,技术和产品的表现才是最关键的。 ChatGPT
微信扫码关注该文公众号作者