Redian新闻
>
案例 | 学而思再陷数据类争议,AI训练用数据将成隐患?

案例 | 学而思再陷数据类争议,AI训练用数据将成隐患?

公众号新闻

标准合同项目落地咨询,微信:heguilvshi

目前,学而思与笔神关于数据的争议尚未平息。但是,北京知识产权法院发布的一起涉及学而思的数据案件已经审理完毕。法院认为,爱拼公司通过投入智力劳动形成了大数据产品,但学而思体系的主体未经许可销售、使用涉案数据,并将其作为自身产品对外宣传,获取竞争优势,主观恶意明显。

本文字数5729,阅读时长约18分钟

文|财经E法 张剑

编辑|郭丽琴

教培龙头学而思再次卷入数据使用争议。

从6月13日起,笔神作文(创业公司“一笔两划”旗下产品)指控学而思窃取其数据,用于学而思的AI大模型训练。学而思很快否认了这一指控,但笔神作文再度发文反击,并晒出相关证据。目前,这一争议尚未有定论。

但财经E法注意到,这并不是学而思第一次卷入不当使用其他企业数据的风波。就在4月23日(4月26日为国际知识产权日),由中关村科学城管委会、北京知识产权法院联合主办的2023中关村知识产权论坛上,北京知识产权法院发布涉数据反不正当竞争十大典型案例。其中就包括一起学而思因未经授权使用他人数据而被判败诉的案例——“高校毕业生就业数据非法使用案”。

财经E法获得了该案件一审和二审的判决书。在这起审结近一年半的案件中,学而思被认定未经许可,使用并销售一家公司研发的大数据产品中的相关数据,构成不正当竞争。法院在判决中提及,这一行为的主观恶意明显。

伴随AI大模型在全球热度持续升温,数据重要性愈发凸显。以ChatGPT为首的人工智能,由庞大数据集训练而成。

这些案例也再次引发AI大模型训练用数据来源、版权归属、如何定价等问题。

01

卷入窃取数据风波的学而思

6月13日,笔神作文发布了“关于‘学而思’AI大模型侵权事件的声明,直指该公司的数据被学而思窃取。笔神作文表示,4月13日至17日,学而思通过“爬虫”技术非法访问、缓存笔神作文 APP 服务器数据多达258 万次,此举严重侵犯了笔神作文APP的数据权益。

根据其官网消息,“笔神”和“笔神作文”是隶属于北京一笔两划科技有限公司的品牌。北京一笔两划科技有限公司是一家用人工智能技术,帮助写作者提升写作能力的公司。

学而思很快在官方微博发文回应,否认了笔神作文的指控。学而思回应的内容主要包括:双方于2020年12月开始合作,合作协议约定了笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,每月保底费用包含的调用次数为百万次量级。合作至今,双方一直按照调用量进行正常结算。笔神作文提出学而思正在研发的数学大模型MathGPT以及学而思学习机“作文AI助手”,并主观揣测学而思使用其数据用于两款产品的训练和研发,与事实严重不符。首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据;其次,“作文AI助手”目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。

6月14日,笔神作文再发一则声明,不认可学而思在回应中的说法,并列出了相关证据,指出学而思进行的是行业内所称的”扒库“行为。具体表现为:2023年4月13日至17日之间,笔神作文检测到服务器接口出现大量有规律的异常访问,导致服务器承载压力快速升高。通过查阅服务器日志发现,某单一IP通过”爬虫“技术非法访问笔神作文服务器数据多达 258万次。

从这个IP的访问日志来看,每次访问的搜索词都是作文相关的高频搜索词,每页会返回 30 篇作文,每次访问都是用搜索词从第一页逐页向后翻,这种方式基本上把库里同个题目的所有作文全部抓取完了,这种行为不是正常人使用的方式。而且很多访问的间隔都是100毫秒左右,也不可能是正常人访问的速度。按业内的通常说法,这就是一种典型的 " 扒库 " 行为。

截至发稿前,学而思尚未对笔神作文的第二次声明内容作出回应。

全球范围内,无数数据“喂养”了人工智能大模型内容生成,但这一利用的路径是否合理合法引发了广泛争议。公开信息显示,学而思也正积极布局AI+教育赛道,但学而思与笔神作文之间的争议,显示了这一赛道潜在的合规风险。

今年5月5日,学而思的母公司好未来集团在官方微信公众号上发布了一篇题为“学而思+大模型=MathGPT”的文章。该文显示,学而思正在进行自研数学大模型的研发,命名为MathGPT,面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心,目前已经取得阶段性成果,并将于年内推出基于该自研大模型的产品级应用。

该文显示,学而思学习机也将会上线一款“AI助手”,涵盖作文助手、口语助手、阅读助手、数学助手等相关功能,该AI产品将于5月11日开启内测。

自2021年在线教育市场政策调整后,此行业各平台纷纷进行转型,研发智能学习机是一个行业新赛道。包括新东方、学而思在内的各平台先后推出了自己的产品,科大讯飞亦入局这一市场。今年2月,学而思推出学习机产品,这款产品的内容库既包括学而思自主开发的内容,也包括来自外部合作伙伴的内容。抖音学而思电子教育旗舰店的销售显示,在上架两个多月时间内,这款学习机已售出2.7万台。就在6月15日晚,在李佳琦直播带货中,学而思学习机成为热销产品,销售价4599元,当晚卖出超过4000台。

02

“高校毕业生就业数据非法使用案”,学而思被判败诉

目前,学而思与笔神关于数据的争议尚未平息。但是,北京知识产权法院发布的一起涉及学而思的数据案件已经审理完毕。且被列为北京知识产权法院“涉数据反不正当竞争十大典型案例”之一。

北京知识产权法院评述,爱拼公司通过投入智力劳动形成的大数据产品,但学而思公司、好未来公司、亿度公司未经许可销售、使用涉案数据,并将其作为自身产品对外宣传,获取竞争优势,主观恶意明显。

中国裁判文书网公布的判决书显示,这起案件的原告方为广州爱拼信息科技有限公司、深圳爱拼信息科技有限公司(合并简称“爱拼公司 ”)。被告方为学而思体系的五家主体:好未来教育集团、北京学而思教育科技有限公司(下称“学而思公司”)、北京世纪好未来教育科技有限公司(下称“好未来公司”)、亿度慧达教育科技(北京)有限公司(下称“亿度公司”)、北京市海淀区学而思培训学校(下称“海淀学而思”)(前述五方合并简称”学而思“

2017年,爱拼公司向北京市海淀区人民法院(下称“海淀法院“)起诉称,其从互联网公开信息中收集和分析了上亿条简历、招聘数据,通过大数据技术于2014年6月首创了涉案的“662所高校学生毕业十年就业薪酬和就业行业分布”数据产品。该产品凝结了爱拼公司大量人力、物力、财力的投入,承载着爱拼公司极高的智力劳动付出,具有极高的商业价值,由此产生的合法权益应受法律保护。学而思未经爱拼公司许可,以不正当竞争手段使用并售卖爱拼公司的上述数据,谋取非法利益。

学而思公司被指在高考派网站和高考派APP、好未来公司在好未来高考派微信公众号、亿度公司在高考帮APP通过“大学就业数据查询”、“金牌卡系统服务”产品直接向消费者售卖涉案数据,上述平台使用的数据完全相同且使用相同的账号均能登录所有平台。海淀学而思在好未来教育集团控制下,利用其用户流量来帮助其他几方被告宣传、推广和吸引用户,并长期、大量转载关于爱拼公司的文章来推广上述侵权渠道和产品。学而思的上述行为违反了诚实信用原则和公认的商业道德,损害了爱拼公司和广大消费者的合法权益,破坏公平、有序的市场竞争秩序,构成不正当竞争。爱拼公司诉请判令学而思赔偿各项损失总计4930万元。

对于爱拼公司的起诉,学而思辩称,爱拼公司不能证明其数据来源、获取方式合法,亦没有证明爱拼公司对涉案数据付出劳动,爱拼公司无权对其提出的数据主张权利,其所谓的竞争优势也不应得到反不正当竞争法的保护。学而思的行为不违反《反不正当竞争法》第二条的规定。被诉平台使用的数据来源于其所收购的原高考派网站,并非对爱拼公司数据的窃取,而被诉平台数据的来源由于创始团队的离去目前已经无法查明。但是,结合各项证据,学而思使用的数据与爱拼公司主张的数据存在不存在一致性,无其他证据可以证明学而思存在窃取爱拼公司数据的行为。学而思还提出,爱拼公司主张的高额赔偿没有事实和法律依据。

判决书显示,爱拼公司开发的数据服务有其技术含量。

判决书显示,爱拼公司对数据进行处理和研发,建设了“完美志愿”网站,考生可以通过这一网站购买服务后进行查询,查询到的数据可以为选择学校和专业提供参考。爱拼公司称,完美志愿数据团队分析了全国2595所院校、1253个专业(包括本、专科)、4000万学生的就业数据(来自有合作关系的招聘网站、猎头机构、社交网络、第三方公共平台等渠道”,团队会对海量的简历样本进行清洗、脱敏、量化、解析,再经过机器学习、自然语言处理、复杂数据分析、预测模型、大规模运算、可视化、数据应用用等科学操作,在考虑了数据的时效性和经济发展的不稳定性等因素,最终形成学校、专业、职业就业大数据。

一审判决披露了爱拼公司对上述数据进行开发的过程。爱拼公司首先采用网络爬虫技术,自动从互联网上提取网络信息,具体为:将访问的网址预设为爬虫爬取的初始URL地址,爬虫可以按照顺序的方式遍历该URL地址中的网页信息,并将相关网页以html格式进行保存;随后对已保存的网页进行解析,并对其中与就业和薪酬相关的信息予以提取(该种信息统称为原始数据);通过不断地重复上述数据获取过程,获取研发涉案数据所需的原始数据。

随后,通过数据清洗、别名识别等技术,将原始数据整理成标准化的有效信息。在数据清洗过程中,爱拼公司将广告、虚假等异常数据进行归类、识别和不断总结,最终通过技术自动地剔除掉这些无效数据;同时,也会将重复的相关数据进行合并等处理。通过别名识别技术,将原始数据中千变万化的用词、名称等进行统一;通过脱敏技术,将获取的简历重新构建到自己的简历系统中,并将获取到的原始数据重新进行编排、统一。

完成上述步骤后,再对基础数据进行大数据分析和计算,最终得出涉案数据。对于获取到的上亿级别的原始数据,爱拼公司应用计量经济学和信息经济学模型,对原始数据从学校、专业、职业、企业、工作要求、薪酬等多个维度进行分析并建立模型,利用这个模型,通过分析大学排行、专业背景、职业情况、就业企业情况等信息,用以计算出不同维度上的薪酬指数,并得出各个维度对薪酬的影响情况。

然后,考虑各维度之间的相关及影响关系,再将这些所有的影响因素统一建模,从不同的维度去计算薪酬情况,并得出薪酬中位数作为薪酬的基础指数。还需要增加时间维度,并结合学校、专业等等不同维度的贡献情况,来计算某一特定学校的薪酬及其未来几年的薪酬指数变化趋势,并用于得出或预测未来几年的薪酬情况。

就学生的就业行业信息而言,亦采用类似方法,从海量的数据中筛选出所涉学校的毕业生的专业情况、工作阶段和相应就业公司等信息,分析得出学校、专业等情况与就业倾向相关的关联指数,然后,再以某一特定学校的情况(如特定学校其专业及教育特点均有所不同)为基础,综合不同维度的贡献程度,来计算和预测该学校的就业行业情况。

03

法院:学而思窃取数据主观恶意明显

基于上述研发过程,爱拼公司认为其付出了大量人力、物力、财力,最终形成的大数据产品是极高的智力劳动成果,具有极高的商业价值。

爱拼公司在诉讼发起前,选择了2015年和2017年这两个年度的就业薪酬和行业数据进行取证。海淀法院审理认为,爱拼公司提交的“662所高校就业薪酬与行业数据比对表”,比对结果显示:首先,关于就业薪酬数据,2015年取证的被诉就业薪酬数据与涉案数据中的就业薪酬数据完全相同的学校有604所,基本相同(包含5个以上完全相同的数据)的学校有19所,数据完全相同及基本相同的学校数量达94%;2017年取证的情况则为完全相同的学校有176所,基本相同的学校有114所,被诉数据与爱拼公司的数据不同、但差值在250范围以内的学校有306所,数据完全相同、基本相同以及有规律差异的学校数量达90%。其次,关于就业行业数据,2015年、2017年分别取证的被诉就业行业数据,与涉案数据中的就业行业数据完全相同的学校分别有154所、125所,基本相同(完全相同的数据超过6个以上)的学校分别有470所、477所,数据完全相同及基本相同的学校数量分别达94%、96.7%。综上,上述比对结果表明,被诉平台使用的662所高校就业薪酬与行业数据,与涉案数据的一致性比例极高。

据此,海淀法院审理认为,学而思公司、好未来公司、亿度公司实施被诉行为的主观恶意明显。首先,高考网发布的多篇文章中包括介绍涉案数据以及爱拼公司研发技术的相关内容,并提供了高考帮App的下载途径,因此,学而思公司、好未来公司、亿度公司作为学而思学校(高考网的经营者)的关联主体,且高考网为高考帮App宣传、导流的情况下,学而思公司、好未来公司、亿度公司亦应清楚知晓公司研发、经营涉案数据的事实。其次,学而思公司、好未来公司、亿度公司在知晓上述事实以及与爱拼公司存在竞争关系情况下,直接使用爱拼公司的经营资源,并作为自身产品优势对外宣传。

第三,被诉数据中部分就业薪酬数据与涉案数据中的相应数据存在规律性差异,在学而思公司、好未来公司、亿度公司无法对此做出合理解释的情况下,存在故意修改、编造数据以掩盖被诉数据真实来源之嫌。综上,上述情形表明学而思公司、好未来公司、亿度公司明知被诉行为具有不正当性的情况下,仍使用爱拼公司的经营成果进行牟利,主观恶意十分明显。这一行为构成不正当竞争。

2019年12月31日,海淀法院作出一审判决,学而思的行为构成不正当竞争,综合各项案件事实,赔偿爱拼公司各项损失共计65万元。一审判决后,爱拼公司和学而思均不服,向北京知识产权法院提起上诉。爱拼公司在上诉中将赔偿金额调整为1000万元。2022年1月24日,北京知识产权法院作出二审判决,驳回了双方的诉求请求,维持原判。

财经E法综合了北京知识产法院的公开评述与二审判决书,北京知识产法院认为,爱拼公司通过投入智力劳动,对诸多高校毕业生十年间的就业薪酬及行业相关数据进行深度分析与系统整合而形成的大数据产品,是爱拼公司的重要经营资源,爱拼公司对其享有的合法权益应受保护。学而思公司、好未来公司、亿度公司未经许可销售、使用涉案数据,并将其作为自身产品对外宣传,获取竞争优势,主观恶意明显。该行为不仅损害了爱拼公司对涉案数据享有的竞争利益,从长远看,也将降低大数据行业研发者进行技术创新和投入的积极性,破坏竞争秩序,阻碍大数据行业的正常、有序发展,并最终造成消费者基于大数据产品和服务所享有的社会福利的减损,具有不正当性和可责性。


每天两块钱,实时获取全球数据合规风险预警
👇


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
上周六,我参加了学而思发展大会,发现……早报|天津两处居民楼爆炸,致3死多伤;笑果回应旗下公司擅自演出被罚;小米回应或被印度没收48亿元;笔神作文炮轰学而思AI大模型学而思没凑首发,除了研究内容,我们做这件事能让效果翻倍香港中小学空余学位近9万;学而思计划推出MathGPT…一周资讯秦淮数据将私有化:作价32亿美元 贝恩资本收购成本提升以色列复国RAZ买一年送一年!学而思名师手把手教娃怎么用实名举报!高铁施工偷工减料?存在重大安全隐患?官方回应:全面调查!事涉2300亿央企巨头大众7亿美元入股,小鹏汽车股价40分钟猛涨40%;妙鸭相机遭上海消保委点名;学而思否认大规模退费丨邦早报鹤冲天 题黄永玉漫画本周好物一篇看完!暑假必备的家得路护眼专家,风靡全球的《千万不要玩穿越》,学而思学习机,69/2瓶优佳防晒~比尔盖茨发微博称抵达北京,2019年后首度访华;盒马鲜生2022年销售额610亿元;学而思回应AI大模型侵权事件……大话三国206:刘备为什么携民渡江?曹操杀刘琮埋下的致命隐患?这类大火的网红儿童“真煮”厨具,是否存在安全隐患?开学季,学而思又有大动作了,再加上常爸加码的福利,这样的诱惑谁能抵得住!Rust 基础系列 #3: Rust 中的数据类型 | Linux 中国“传统学校应该平静地死去”学而思要下场做中国GPT了,教育界革命要来了?重返原生家庭/在伤疤中寻找祝福开播啦!学而思名师支招语文学习保姆级计划,一站式解决课标全部难点不愧是全网疯抢的学而思,一台学习机用出几十W的价值!入手的都在夸!学而思学习机,618限量返场,暑假查漏补缺必备~太难了!全澳连锁健身房倒闭!身陷数年官司!法庭:需支付500万赔偿!抓住暑假,学而思科学课,所有你想了解的都在这里名牌包包和手表 (请勿上城头)终于等到学而思学习机降!价!了!学而思研发面向全球数学爱好者大模型MathGPT入手学而思的都在夸?内置价值几十个W的课程?一篇带你深入了解海淀妈妈卷疯美国…双减后的“学而思”正把硅谷改造成海淀黄庄深度使用学而思学习机1个暑假,听到大宝说,“这玩意不好糊弄啊”,我彻底放心了学而思开到美国后,很多家长悄悄下载了它,而且还全免费!踏莎行:成排茂树浓荫盛小学刚需|学而思1-9年级语数外核心内容,618打包带走大话三国271:魏延黄忠争功,刘备军团暗藏的隐患?腾讯辟谣进军房地产;大众7亿美元投资小鹏汽车;学而思否认大规模退费;妙鸭相机遭上海消保委点名;美联储宣布加息25个基点...一根燃气软管藏着怎样的安全隐患?住建部要求入户逐一排查
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。