Redian新闻
>
GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告

公众号新闻



  新智元报道  

编辑:桃子
【新智元导读】深陷数据风波的OpenAI,背后真正原因竟是优秀的数据太少了。


穷尽「全网」,生成式AI很快无数据可用。
近日,著名UC伯克利计算机科学家Stuart Russell称,ChatGPT和其他AI工具的训练可能很快耗尽「全宇宙的文本」。
换句话说,训练像ChatGPT这样的AI,将因数据量不够而受阻。
这可能会影响生成式AI开发人员,在未来几年收集数据,以及训练人工智能的方式。
同时,Russell认为人工智能将在「语言输入,语言输出」的工作中取代人类。

数据不够,拿什么凑?


Russell近来的预测引起了大家重点关注。
OpenAI和其他生成式AI开发人员,为训练大型语言模型,开始进行数据收集。
然而,ChatGPT和其他聊天机器人不可或缺的数据收集实践,正面临着越来越多的审查。
其中就包括,未经个人同意情况下创意被使用,以及平台数据被自由使用感到不满的一些高管。
但Russell的洞察力指向了另一个潜在的弱点:训练这些数据集的文本短缺。
去年11月,MIT等研究人员进行的一项研究估计,机器学习数据集可能会在2026年之前耗尽所有「高质量语言数据」。

论文地址:https://arxiv.org/pdf/2211.04325.pdf
根据这项研究,「高质量」集中的语言数据来自:书籍、新闻文章、科学论文、维基百科和过滤后的网络内容等。
而加持当红炸子鸡ChatGPT背后的模型GPT-4同样接受了大量优质文本的训练。
这些数据来自公共在线的资源(包括数字新闻来源和社交媒体网站)
从社交媒体网站「数据抓取」,才导致马斯克出手限制用户每天可以查看的推文数量。
Russell表示,尽管许多报道未经证实,但都详细说明了OpenAI从私人来源购买了文本数据集。虽然这种购买行为可能存在解释,但自然而然的推断是,没有足够的高质量公共数据了。
一直以来,OpenAI尚未公开GPT-4背后训练的数据。
而现在,OpenAI需要用「私人数据」来补充其公共语言数据,以创建该公司迄今最强大、最先进的人工智能模型 GPT-4。
足见,高质量数据确实不够用。
OpenAI在发布前没有立即回复置评请求。

OpenAI深陷数据风波


近来,OpenAI遇上了大麻烦,原因都和数据有关。
先是16人匿名起诉OpenAI及微软,并提交了长达157页的诉讼,声称他们使用了私人谈话和医疗记录等敏感数据。
他们的索赔金额高达30亿美元,诉讼中指出,
尽管制定了购买和使用个人信息的协议,但是OpenAI和微软系统性地从互联网中窃取了3000亿个单词,包括数百万未经同意获取的个人信息。
这其中包含账户信息、姓名、联系方式、电子邮件、支付信息、交易记录、浏览器数据、社交媒体、聊天数据、cookie等等。
这些信息被嵌入到ChatGPT中,但这些恰恰反映出个人爱好、观点、工作履历甚至家庭照片等。
而负责这次起诉的律师事务所Clarkson,此前曾负责过数据泄露和虚假广告等问题的大规模集体诉讼。
紧接着,这周又有几位全职作者提出,OpenAI未经允许使用了自己的小说训练ChatGPT,构成侵权。
那么是如何确定使用自己小说训练的呢?
证据就是,ChatGPT能够针对他们的书生成准确的摘要,这就足以说明这些书被当作数据来训练ChatGPT。
作者Paul Tremblay和Mona Awad表示,「ChatGPT未经许可就从数千本书中拷贝数据,这侵犯了作者们的版权」。
起诉书中预估,OpenAI的训练数据中至少包含30万本书,其中很多来自侵权网站。
比如,GPT-3训练数据情况披露时,其中就包含2个互联网图书语料库,大概占比为15%。
2位起诉的作者认为,这些数据就是来自一些免费的网址,比如Z-Library、Sci-Hub等。
另外2018年,OpenAI曾透露训练GPT-1中的数据就包括了7000+本小说。起诉的人认为这些书没有获得作者认可就直接使用。

另谋他法?


不得不说,OpenAI使用数据来源一事确实存在诸多争议。
今年2月,《华尔街日报》记者Francesco Marconi曾表示,新闻媒体的数据也被用来训练ChatGPT。
Marconi让ChatGPT列了一个清单,竟有20家媒体。
早在今年5月,Altman在接受采访时曾表示,OpenAI已经有一段时间没有使用付费客户数据来训练大语言模型了。
客户显然不希望我们训练他们的数据,所以我们改变了计划,不再这么做。


其实,OpenAI在3月初,曾悄然更新了服务条款。
Altman提到,现在公司正在开发的新技术,可以使用更少的数据来训练模型。
或许从OpenAI身上受到了启发,谷歌选择先行堵上这一漏洞。
7月1日,谷歌更新了其隐私政策,现在的政策中明确谷歌有权收集任何公开可用的数据,并将其用于其人工智能模型的训练。
谷歌向所有用户表明,只要是自己能够行公开渠道获得的内容,都可以拿来训练Bard以及未来的AI。

参考资料:

https://www.businessinsider.com/ai-could-run-out-text-train-chatbots-chatgpt-llm-2023-7


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
思念,是对母亲唯一的回报ChatGPT 又断网了!OpenAI 暂时下线 ChatGPT 搜索功能,只因绕过付费墙?GPT-4版Windows炸场!整个系统就是一个对话机器人,微软开建AI全宇宙5071 血壮山河之武汉会战 黄广战役 3恐怖!UC伯克利学生被持枪劫持!性侵、吸毒犯罪频发引关注爆了,这个数据太震撼!个人如何追随?脑损伤实例分析重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做用语言建模世界:UC伯克利多模态世界模型利用语言预测未来最新!UC九校公布2023年新生数据,加州伯克利国际生录取率低至5.15%!突发!OpenAI 重磅发布 ChatGPT iOS 客户端!无须手续费,直接开通Plus。AI“应用商店”来了!OpenAI首批70个ChatGPT Plugin最全梳理最新QS世界大学排名公布,UC伯克利跻身TOP 10微软AI全宇宙开启:集成Windows、推出AI应用商店、Bing接入ChatGPTUC伯克利教授惊人预测:2030年GPT可执行人类180万年工作,一天学2500年知识GPT-4考90分全假!30年资深律师用ChatGPT打官司,6个虚假案例成笑柄他发明苹果电脑,冒充美国国务卿,出演生活大爆炸…昨天,72岁的他二度受邀在UC伯克利发表毕业演讲!(附视频&演讲稿)谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉研究 I 美国最危险五所大学,UC伯克利在列Final给教授发邮件被频频夸赞,native speaker看了都要羡慕哭…UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一被阴了…律师用ChatGPT数据打官司,结果判例全是AI胡诌GPT-5不远了!OpenAI推出网络爬虫GPTBot,自动抓取数据,可选择性关闭GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞高利率,低利率,总有一款镰刀可以收割韭菜崔哥天天侃 | 餐厅不让美国大兵用厕所,有违常规等着吃官司著名教授发现自己被ChatGPT“写”的论文引用!MDPI将“挂名”作者列入黑名单!人类创造的数据太贵了!开发者悄悄使用AI合成数据训练模型用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPTChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光ChatGPT之父舌战国会山!OpenAI欲与政府联手,权力通天终于找到 ChatGPT “智商”下降的原因了!OpenAI 侧面回应,GPT 可能真被你们玩坏了?终于找到ChatGPT智商下降的原因了!OpenAI侧面回应,GPT可能真被你们玩坏了?真相最新!UC各校公布2023秋季招生录取数据!UCB堪比藤校
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。