Redian新闻
>
免费数据薅不到了!美版贴吧向AI公司收取数据使用费!马斯克已作出“价格示范”

免费数据薅不到了!美版贴吧向AI公司收取数据使用费!马斯克已作出“价格示范”

公众号新闻
联系微信:heguilvshi领取优惠券,加入会员


美国新闻媒体联盟(前美国报业协会)在日前呼吁AIGC开发公司就数据使用展开谈判,并要求这些开发公司尊重新闻媒体获得公平补偿的权利。而马斯克或许也为这两家公司提供可供借鉴的定价方案——本月马斯克已提高推特数据访问价格,起价为每月4.2万美元,可访问5000万条推文。

AIGC热潮下,数据重要性愈发凸显。以ChatGPT为首的人工智能,由庞大数据集训练而成。如今,已有公司“揭竿而起”要求收费,不再甘于被微软、谷歌等科技巨头免费用数据。

当地时间周二,Reddit宣布,将向使用其API训练AI聊天机器人的公司收取数据使用费,其中便包含微软、谷歌、OpenAI等

之前这些公司都通过应用程序编程接口(API)下载并处理论坛上的聊天内容,并将聊天内容当做免费训练工具,用于开发新AI系统。例如,谷歌聊天机器人Bard的底层算法之一便是用Reddit聊天数据训练而来;OpenAI的ChatGPT也将Reddit数据纳入大型语言模型的训练内容

Reddit是美国访问量最大的网站之一,用户可以在其中创建并分享内容,还有人将其称为“美国版百度贴吧”。

公司创始人兼首席执行官Steve Huffman表示,“Reddit比互联网上任何其他地方都更适合聊天,平台上很多内容是用户只会私下说的、或压根不会说的东西。Reddit的数据库确实很有价值,我们没有必要免费提供这些价值给世界上最大的公司。”

这也是首次有社交媒体公司明确向OpenAI等收取费用,开放访问权用于开发人工智能系统。

目前,Reddit暂未公布具体收费标准,但其表示,将会给出不同的等级,根据使用者的规模和需求来收费。此外,这一举措不会影响那些使用API来创建和维护内容审核工具的人,Reddit会为他们提供专门的iOS和Android应用程序。

实际上,眼下已意识到数据价值的公司并不止Reddit——图片托管服务商Shutterstock已把图像数据出售给OpenAI,帮助开发了DALL-E;许多公司也在使用API追踪推特上的聊天内容,推特计划针对API使用收取几万到几十万美元不等的费用

       

数据已成“AI发展的胜负手”

为了不断改进AI模型,有两个关键因素不可或缺:强大的计算能力和大量可用的数据一些大型AI开发公司通常拥有足够的算力,但仍会在互联网上寻找改进算法所需的数据,数据来源包括维基百科、各种数字化书籍、学术文章和Reddit论坛上的聊天内容等。

OpenAI就曾透露,训练ChatGPT使用了45TB的数据、近1万亿个单词,大概是1351万本牛津词典所包含的单词数量。

知乎在日前发布大模型“知海图AI”,其倚仗的一大有力支撑便是中文互联网大量问答内容。知乎创始人、董事长兼CEO周源表示,AI时代,生产力的三要素分别是应用场景、专有数据和基础模型。其中,知乎以问答为基础的讨论场景是天然的应用场景,构成了独一无二的专有数据。

彭博的BloomberGPT训练数据总量约为5300亿次,其中金融行业数据约为2720亿次,约占所有训练数据的54.2%,来源包括网络、新闻、公司公告与财务报表以及彭博自己的新闻库。

海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来AI研究范式转变。只有在训练数据量足够大时,量变才能引起质变。而GPT相比于此前模型所具备的“泛化能力”,就是以海量数据为基础产生的。

在这种情况下,数据更有了“AI发展的胜负手”之称——算法、算力和数据是AI发展的三大重要基础。东吴证券指出,对于我国而言,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶。而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。

科技巨头或成主要收费对象 马斯克已作出“价格示范”

实际上,OpenAI、谷歌、Meta等多家科技公司在建立大规模AI项目时,历来不会为大部分训练数据付费,而是选择从网络直接“爬取”,数据来源便囊括上文提到的Stack Overflow和Reddit。当然,在美国此举通常被看作合法行为,但仍存在一些版权与网站条款争议。

但即便在这种情况下,ChatGPT等一系列AI大模型/聊天机器人的开发费用也已高达数亿美元。随着Reddit、Stack Overflow等网站开始“开口要钱”,这些科技巨头的AI开发费用未来很可能“再上一层楼”,而技术开发时间或也将进一步延长。

至于具体如何收费?不论是Stack Overflow还是Reddit都暂未发布价格信息。

Reddit透露,“我们正在处理这个问题,将在未来几周内与合作伙伴分享更多信息。”Stack Overflow则表示,公司将借鉴研究Reddit的策略,并与潜在客户展开协商,目前已与部分客户就数据访问进行接触

这两家公司的收费方案或许都将针对大型科技公司:Stack Overflow称希望收费对象仅限于以商用为目的开发LLM的大型公司;Reddit也有类似表态。而其余用户与公司则有望继续免费使用数据。

而马斯克或许也为这两家公司提供可供借鉴的定价方案——本月马斯克已提高推特数据访问价格,起价为每月4.2万美元,可访问5000万条推文。而就在本周三,马斯克刚刚指控微软非法使用推特数据来训练其AI模型,还直言“诉讼时间到”,警告要起诉微软。



每天两块钱,实时获取全球数据合规风险预警

👇

招募兼职研究助理:课题组《人脸识别法律治理框架》

  • 申请条件:在数据隐私、数据安全及数据治理等方面具有丰富的理论积累或实践经验;并具有全英文写作的能力。
  • 优先条件:发表过数据法或科技法相关论文的优先;有英文期刊发表经验的优先
  • 申请方式:请将您的简历和代表作发送到微信:heguilvshi 或邮箱:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
马斯克已选定新任Twitter CEO/科大讯飞否认套壳 ChatGPT/Apple ID 出现大面积故障千万富翁被「随机捅死」躺尸旧金山街头!马斯克哀悼「美版支付宝」创始人!突发!美股跳水,黄金突然崩了!这板块却炸了!拜登最新发声!马斯克出手,杀入AI大战!朱啸虎辟谣被拘留,华为向30家日本公司收取专利使用费,QQ安全达人下线,FF91第二阶段交付推迟,这就是今天的其他大新闻!美版贴吧8000小组自爆停摆!拒绝数据被谷歌OpenAI白嫖,CEO被网友骂翻:背刺第三方应用18元一份土豆就5片、包厢收15%使用费,“高端”巴奴火锅有人买单吗?突发!千万富翁被「随机捅死」躺尸旧金山街头!马斯克哀悼「美版支付宝」创始人!硅谷大佬干过谷歌、投过SpaceX!$260/周,包电费!澳洲铁皮棚屋挂牌出租,网友直呼“价格离谱”马斯克已离开上海,黄仁勋拟本月赴华,百度网盘回应从苹果应用商店下架,荣耀回应成立集成电路设计新公司,这就是今天的其他大新闻!最新通知:免费!免费!A股绿色周报|7家上市公司暴露环境风险 中国中铁旗下公司收40万元环保罚单美国众议院通过债务上限法案!彭斯将正式启动竞选总统!马斯克40余小时“旋风”访华结束!马斯克重登世界首富宝座!加拿大出台移民新政爱尔兰苏格兰自驾游 (0) - 在犹豫不决中出发找了6个月,终于找到了!马斯克宣布:她,六周后上岗A股绿色周报|6家上市公司暴露环境风险 一矿业公司收超百万元环保罚单一县长涉嫌侵犯挂职女干部?官方回应:已作出停职检查处理,联合调查组立案调查吓死人!马斯克前女友比马斯克疯狂多了......吃多少送多少!宜家餐厅限时优惠!炸鸡配奶茶,这个6月羊毛薅不完!最新通知!免费!免费!张勇9月卸任董事长和CEO;华为向30家日本公司收取专利使用费;微软明确不会涉足VR;贾跃亭再跳票; 微信推出安静模式...A股绿色周报丨13家上市公司暴露环境风险 多家环保产业公司收环保罚单推特“不复存在”?马斯克已纳入新公司X旗下有没有老师现在敢给高三学生讲这玩意儿, 这可全是“钱”啊!美国现在有大概250万非土生土长的华人。加州居然能免费!高速路上换爆胎、发动汽车、加油、短程拖车都可以免费!马云:阿里电商应回归淘宝;李书福回应造手机被看衰;华为向30家日本公司收取专利使用费;鼠头鸭脖涉事企业经营700多个食堂...死杠!马斯克威胁要起诉微软!“非法使用推特数据训练AI”!南澳散记 (增订本) :第十八章:动物杂谈 (上)泽连斯基:已作出行动决定硬核观察 #973 马斯克已经成立了一家新的人工智能公司 X.AI八卦|吓死人!马斯克前女友比马斯克疯狂多了......不想被白嫖了,Reddit 将向 OpenAI 、谷歌等公司收取 API 费用,后者一直免费用其聊天内容训练大模型GPT5短期不会问世 马斯克已悄然注册AI公司加入大模型之战CEMOY超值返场,平价水乳尖子生,刚需护肤买送福利薅不停!豪斯曼:《诗歌外编》: 第十七首:命运还没有把最坏的给我
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。