Redian新闻
>
ChatGPT 的中文语料问题

ChatGPT 的中文语料问题

其他

国内科技行业的朋友们在讨论 ChatGPT 的时候,有个错误的观点:中文互联网没有高质量语料。

为什么这么说呢?因为 ChatGPT 这事儿咱落后了,落后的原因之一就是中文互联网没有高质量语料。这个似是而非的观点居然能被不少人接受。

如果中国互联网公司做 ChatGPT,会不会因为中文语料问题而导致产品不行呢?

那我想问,OpenAI 这个团队用的什么样的中文语料?不也是来自网络上公开的中文内容吗?难道他们有什么渠道能拿到别人拿不到的语料?

这不难理解的吧?

过去也有人问我,说你们团队做的「就诊问问」这玩意儿,训练的数据和内容来自哪里呢?我的观点:其实公开的信息和内容就足够,就能做很多事情了,根本不需要所谓的各种独家内容。就算做不成,那也是技术和产品不行,而不是因为数据内容不行。当然我们也不好意思说这是人工智能,只是用相关技术打造的产品而已。

就诊问问·小程序版‍‍‍‍‍‍‍‍‍‍‍‍

ChatGPT 说:我们不应该将技术的成败归咎于语料的质量,而是要看技术和产品的表现。

大家能用的语料基本上是同一层面的,也就不存在「高质量」与否的比较。

OpenAI 做出来 ChatGPT 不是他们掌握了什么关于语料内容的秘技。这就好比一个高明的厨师做菜并不一定用的都是独家食材一样,难点之一在于做菜的方法。

甚至都不用列举什么具体的数据。比如有多大比例来自 WebText 2,有多大比例来自 WikiPedia。

只需要基本的逻辑分析就行。

在语料问题上,各家参与者不会有什么区别。

说「中文互联网没有高质量语料」多少带一点妄自菲薄的心态。现阶段尤其不应该妄自菲薄。

结论是,英文语料,大家都可以拿到一样的内容。而中文,甚至是更有优势。因为,国内参与 ChatGPT 的公司或团队各自有自己的封闭内容。



题图:由 DeepAI 创建


题外话,ChatGPT 是怎么看待这个问题的呢?

我认为中文互联网确实存在大量的高质量语料,并且像 OpenAI 和其他公司都已经成功地利用这些语料来训练语言模型。因此,在进行类似 ChatGPT 这样的技术开发时,语料并不是决定性因素,技术和产品的表现才是最关键的。
ChatGPT

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
PK chatgpt 的诗评《更多的诗歌》:12: 我什么都没许诺: 朋友将要分离华尔街交易员为何不担心ChatGPT抢饭碗?ChatGPT:我预测不了市场ChatGPT 进军 B 端?消息称微软将允许企业创建定制版 ChatGPTChatgpt 4 要release 了ChatGPT能有意识吗:关于ChatGPT的误解与夸大ChatGPT惹怒主流媒体!华尔街日报、CNN授权费都没付!马斯克:ChatGPT好得吓人;用户吐槽:它有时会一本正经的胡说八道网易伏羲中文预训练大模型“玉言”问鼎中文语言评测分类冠军:参数达 110 亿,浪潮提供 AI 算力支持全球都为ChatGPT疯狂,它到底是风口还是虚火?深度解读风暴眼中的ChatGPT | 直播预约微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!反击!Google 版 ChatGPT 首次亮相,有一个功能「碾压」ChatGPT百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此朋友圈全是ChatGPT! ChatGPT概念股大火集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇《山居续忆》:第二十六章:我们的音乐沙龙 —— 兼谈我的音乐观 (六) 余意未尽ChatGPT通过谷歌程序员面试,薪资达18.3万美元!ChatGPT通过谷歌程序员面试,薪资达18.3万美元!金融民工会因为ChatGPT下岗吗?刚刚,我问了ChatGPT 24个金融圈灵魂问题厉害了我的 ChatGPT, 弱为什么ChatGPT这么强?—— 一文读懂ChatGPT原理!科早ChatGPT:如何应对ChatGPT?二级市场闭门研讨会精选 | S7E01 硅谷徐老师ChatGPT到底有多聪明?我测试了ChatGPT的数学能力我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患chatgpt 说顾城剽窃重磅!微软发布 ChatGPT 版搜索引擎,用上了比 ChatGPT 更强大的技术孟晚舟将首次出任华为轮值董事长/ 百度All in类ChatGPT项目/ 知乎因ChatGPT大涨50%…今日更多新鲜事在此ChatGPT因访问量激增崩了;抖音否认3月1日上线外卖服务;百度将于3月推出ChatGPT产品丨邦早报齋明寺古道ChatGPT 或导致 20 种工作失业?恐怕远远不止,比尔盖茨 :ChatGPT 将改变世界Gwinnett County警察安装中文语言包 以后遇到警察可以毫无沟通障碍了?跟ChatGPT,聊聊ChatGPT今日晚餐自产多:清蒸螃蟹腿 酱鸭腿和鸭胃 西红柿炒鸡蛋chatGPT. 一本正经胡说八道紧急提醒!ChatGPT成神器!但这些“ChatGPT”是假的,小心被骗!ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!欧洲实现自主可控的一大制约:原材料问题周末随笔剽窃、作弊,ChatGPT竟偷偷生成了12篇署名论文!Marcus炮轰Ta变成CheatGPT重磅 | 我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患下载量暴增10倍!微软必应集成ChatGPT后需求大爆发;4省份上调最低工资标准;淘宝已屏蔽ChatGPT关键词丨邦早报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。