Redian新闻
>
“大模型数据被盗第一案”和解:曾索赔1元

“大模型数据被盗第一案”和解:曾索赔1元

公众号新闻
全部课程+圈子+何谈系列

笔神作文6月13日宣布起诉学而思,称其用爬虫盗取数据,这被称为国内大模型数据盗窃第一案。但其近日表示,双方已消除误会,不再对学而思数据调取事件发起诉讼。

全文共计3368字,预计阅读时间8分钟

来源 | 数据观综合

编辑 | 蒲蒲

近日,世纪天鸿投资的AI辅助写作产品笔神作文发布声明称,已于8月4日决定不再对学而思,针对相关数据调取事件发起诉讼。

笔神作文表示,经与学而思深入调查并坦诚沟通后,对双方有争议条款已达成一致,双方已消除误会,并将继续深化合作,共同推进AI技术在教育领域的探索。


6年成果,被爬取200+万次,索赔1元

笔神作文将之称为“AI大模型数据被盗第一案”。此前6月13日下午,笔神作文通过自己的微信公众号、微博和第三方媒体发布消息称,遭到有多年合作关系的“学而思”背刺,指控学而思“盗取了我们的作文库存”,并称4月数据被窃取,学而思5月就公布进行数学大模型-MathGPT 的研发使用,“未免也太过于‘巧合’了”。

对此,学而思方面则发布声明回应称,该公司对笔神作文接口的调用,属于双方合同约定的正常合作范围,对笔神素材内容的使用均符合合同要求,并未用于合同以外的任何用途。

笔神作文在文章中表示,“我们的案件可能将会成为‘AI大模型数据被盗第一案’。”并表达了,要求公开致歉、删除非法获取的数据并中止应用、求偿1元的诉求。

对此,笔神作文解释道:“数据是有价值的,但我们心血更是无价,索赔 1 元是因为公平公正并不能用金钱衡量,我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展,靠的是共同创造,而非觊觎和剽窃他人的成果。”

公开资料显示,笔神作文是北京一笔两划科技有限公司开发的智能写作平台,拥有语文作文写前指导、作文批改评测等服务。

笔神作文在文章中称,“在过去笔神作文成立的6年时间里,我们每个月都会收到30万篇作文投稿和超过四十万的点赞。总共积累了超过500万篇作文素材,月批改量超3万篇。”但在4月一个周末,这些数据资源被爬虫爬取了超过两百万次。

文章中透露,笔神作文与学而思是合作关系,“虽然我们的产品已经设置了完备的数据安全机制,然而学而思却利用了我们的这份信任,利用了我们对合作伙伴的接口不设防。”

笔神作文表示,在数据窃取事件发生后,笔神作文找学而思进行求证时,对方直接承认,是他们的算法组在爬取数据并作为己用。

此前,好未来公司 (三体云联公司关联公司,前身学而思) 在5月5日的官方微信公众号发文表示: “学而思正在进行数学大模型-MathGPT 的研发使用,学而思学习机近期将上线一款‘AI助手’,涵盖作文助手......等相关功能。”

笔神作文方面直言,“4月我们的「作文库」数据被窃取,5月‘学而思’的「作文AI助手」新产品就即将上线了,这样‘巧合’未免也太过于‘巧合’了。”

笔神作文还称,团队多次向学而思发出律师函,但对方始终没有实质性答复。

不久后,针对笔神作文的这篇“征讨檄文”,学而思发布声明否认了笔神作文的说法,并称“对方在公开声明中提及学而思正在研发的数学大模型MathGPT以及学而思学习机‘作文AI助手’,并主观揣测我方使用其数据用于两款产品的训练和研发,这与事实严重不符”。

学而思从三个方面回应了笔神作文:

1、学而思和笔神作文于2020年12月开始合作,合作协议明确约定:笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,每月保底费用包含的调用次数为百万次量级。合作至今,双方一直按照调用量进行正常结算。

2、我方对笔神作文接口的调用,属于双方合同约定的正常合作范围,对笔神素材内容的使用均符合合同要求,并未用于合同以外的任何用途。

3、对方在公开声明中提及学而思正在研发的数学大模型MathGPT以及学而思学习机“作文AI助手”,并主观揣测我方使用其数据用于两款产品的训练和研发,这与事实严重不符:首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据; 其次,“作文AI助手”目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。


500万篇作文素材从何而来

作为AI核心要素之一的数据,据笔神作文和世纪天鸿披露,笔神作文积累的作文素材已超过500万篇。

世纪天鸿此前在互动平台中表示,笔神作文的大数据来源于自身累积,算法模型为公司自研训练。

此前5月8日,深交所对世纪天鸿下发关注函,其中要求说明公司是否向一笔两划提供训练“笔神作文”AI模型所需的数据;如是,需要结合公司有关数据的获取方式及来源等,按照《数据安全法》等相关规定,说明获取、处理及使用有关数据的合法性;有关数据资产产权的权属是否清晰、是否存在潜在纠纷,相关方是否存在其他协议及利益安排。

世纪天鸿回复关注函时表示,经核实,一笔两划训练“笔神作文”AI模型所需数据,均为一笔两划在自身经营过程中积累。截至目前,公司未使用“笔神作文”向客户提供服务,也未向一笔两划提供“笔神作文”AI模型训练所需数据。后续,如一笔两划就“笔神作文”AI 模型训练有数据采买需求,公司将严格按照《数据安全法》等相关规定,在确保有关数据获取、处理及使用合法、数据资产产权权属清晰,无潜在纠纷的前提下,协商确定具体业务合作方式。

笔神作文向《科创板日报》表示:“用户在笔神作文APP使用我们服务的过程中,根据协议,我们会积累大量用户的原始的作文素材,成为我们的资产。这也是学而思与我们合作的原因,学而思如果从头积累数据,时间成本很高,短期没有办法积累相同数量级的数据。”

据悉,根据笔神作文的用户服务协议,用户在笔神作文发表的内容,授予笔神作文免费且不可撤销的非独家使用许可。


平衡安全与发展成AI监管挑战

笔神作文与学而思的纠纷,牵引出大模型的一个“隐秘的角落”:用于训练AI大模型的数据,来源是否合法合规?事实上,关于大模型数据集的纷争已在海内外频频上演。

今年1月,海外图片供应商华盖创意(Getty Images)起诉AI绘画工具Stable Diffusion的开发者Stability AI,称其侵犯了版权。华盖创意称,Stability AI“非法”从网站上窃取了数百万张图片。

2月,《华尔街日报》的一名记者在网上公开表示,他向ChatGPT索取了一份用来训练它的新闻来源清单,收到的回复列出了20家媒体,但并不清楚OpenAI是否与所列出版商都达成了协议。

6月,美国一家律师事务所在加州一家联邦法院向OpenAI提起集体诉讼。根据诉状,OpenAI大规模盗取互联网用户与该公司产品的互动信息,及集成ChatGPT的应用中的隐私数据,并将这些信息用于该公司产品的模型训练。受害者据称可能多达数百万人,潜在损失高达30亿美元

自去年底ChatGPT“一夜成名”,人工智能迎来“狂飙”时刻,AI生成内容(AIGC)领域快速发展。与此同时,数据泄漏、电信诈骗、个人隐私风险、著作权侵权、虚假信息等挑战层出不穷。

随着问题的凸显,各国也把对于AI的监管提上日程。斯坦福大学发布的《2023年人工智能指数报告》中提到,对127个国家的立法记录调研的结果显示,包含“人工智能”的法案被通过成为法律的数量,从2016年的仅1个增长到2022年的37个。报告对81个国家2016年以来的人工智能法律法规记录的分析也同样表明,全球立法程序中提及人工智能的次数增加了近6.5倍。

新一轮人工智能飞速发展,如何平衡发展与安全成为此次发展过程中的一道必答题。



点击图片,立即购买GDPR高级班62讲


每天两块钱,实时获取全球数据合规风险预警
👇


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
纽约教育局数据被盗,4万学生信息泄露,警惕诈骗!60岁ACS患者死亡,家属索赔118万!没有推断死因,凭什么判医生有“四大罪”?丨医眼看法大数据在大模型趋势下的“新姿态”:大模型与企业数据充分协同索赔1元的“大模型数据被盗第一案”和解;首个生成式AI监管文件正式施行;雷军:小爱同学已升级大模型丨AI周报傅蔚冈:比大模型数量更重要的是AI原生应用当 Apache Doris 遇上大模型:探秘腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台两首合唱:《天边飘过故乡的云》&《秋蝉》2岁男童误入电梯坠楼身亡,其母索赔145万元!视频细节披露Apache IoTDB:更适合工业物联网场景的新型数据库,存、查、用不再是难题在大模型数量全国领先的北京,昇腾AI“点燃”首个普惠算力底座学生坠河身亡,班主任被起诉索赔1元!这种乱逻辑也能宇宙普适?如果数据被大模型耗尽,我们还能看到通用人工智能吗?|GGView10万ChatGPT用户数据被盗/新 iPhone SE 发布时间推迟/贾跃亭回应FF 91推迟交付悲剧 ◇ 加拿大华人新移民首付款汇不出来,取消购房遭索赔10万加元女子怀孕后,凌晨2点半和男人鬼混被抓,还跟男友索赔10万元十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱【玩具日报】奥飞娱乐上半年预盈5000万至6500万元;王尼玛恶搞奥特曼一案达成和解行乐要及时呀大模型变“小”:黑马天启开创AI模型“重度垂直”新思路,入选北京大模型行业应用典型案例Stability AI创始人100美元出售15%!怒告合伙人诈骗索赔1.5亿,网友:我也想这么干因不让说普通话!硅谷华人高管起诉前东家歧视亚裔索赔1.4亿...一句话搞定数据分析,浙大全新大模型数据助手,连搜集都省了中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报“风险App治理第一案” 广西高院宣判小米胜诉被“盗用”70年:“海拉细胞”一案达成和解父亲节,纪念父亲坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报用错字体被索赔150万!除了微软雅黑,这些常见字体也有风险!(附26个免商字体包)总分第一,算法模型第一,行业覆盖第一!国际权威测评文心大模型3.5一举得魁,独占鳌头战地恋情(九)20次登春晚,56岁单身无子,因一句话被索赔1亿,这位春晚钉子户去哪了?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。