国际科技财经博客移民网络热点娱乐民生时事公众号

ChatGPT 的中文语料问题

其他

2023-02-15 15:02

国内科技行业的朋友们在讨论 ChatGPT 的时候，有个错误的观点：中文互联网没有高质量语料。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

为什么这么说呢？因为 ChatGPT 这事儿咱落后了，落后的原因之一就是中文互联网没有高质量语料。这个似是而非的观点居然能被不少人接受。‍‍‍‍‍‍‍‍

如果中国互联网公司做 ChatGPT，会不会因为中文语料问题而导致产品不行呢？‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

那我想问，OpenAI 这个团队用的什么样的中文语料？不也是来自网络上公开的中文内容吗？难道他们有什么渠道能拿到别人拿不到的语料？‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

这不难理解的吧？

过去也有人问我，说你们团队做的「就诊问问」这玩意儿，训练的数据和内容来自哪里呢？我的观点：其实公开的信息和内容就足够，就能做很多事情了，根本不需要所谓的各种独家内容。就算做不成，那也是技术和产品不行，而不是因为数据内容不行。当然我们也不好意思说这是人工智能，只是用相关技术打造的产品而已。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍