Redian新闻
>
“想拿我的数据炼 AI,那麻烦先把帐结一下。”

“想拿我的数据炼 AI,那麻烦先把帐结一下。”

其他

当我们感慨 AI 快把人类一锅端了之时,有大聪明发现了 AI 的一生之敌——弱智吧


于是,我们看到了类似《我教 AI 弱智吧问题,结果它疯了》《把 ChatGPT 和文心一言扔进弱智吧,谁可以先出院?》……这样的整活实验,俨然把弱智吧问题当成中国人自己的图灵测试。细瞅他们怎么问,发现问的是“蓝牙耳机坏了,应该去看耳科还是牙科”,都不用看 AI 怎么答,AI 在攻陷人类之前,弱智吧就是最后一座堡垒。


就这样,贴吧这么个老古董,和光鲜亮丽的 AI,连接在了一起。


2005 年,硅谷也诞生了自己的“贴吧”——Reddit。“苟”了 19 年的它,也终于迎来新叙事:当地时间 3 月 21 日,Reddit 在纽交所敲钟上市,较此前发行预计的 65 亿美元估值计算,收盘市值已增加 30 亿美元,涨幅达 46%


要知道,这家公司从未盈利,且累计亏损超过 7 亿美元。那市场为何这么乐观?其中一个原因是,Reddit 和多家 AI 公司签了数据授权协议,收入合计有 2.03 亿美元。


图片来源:Unsplash


“想拿我的数据炼 AI,那麻烦先把帐结一下。”这大概就是 Reddit 的心里话。


但对于一个 UGC(用户生成内容)平台,用户难道不是“衣食父母”吗?“Reddit 把我们卖了。”这是用户们在明面上的控诉。


关于 Reddit,我们有太多想问的了。



Reddit 敢为人先。它是第一家公开向生成式 AI 新贵们叫板的公司,要求后者只要用到平台语料训练 AI 就必须付钱。


关键是,Reddit“得逞”了。据路透社报道,今年 2 月,它和 Google 谈好价码——6000 万美元(每年!)


再怎么说,Reddit 也是全美流量前五的网站,仅次于 Google、YouTube、Facebook 以及 Amazon。具体到更硬的指标,它在招股书里说月活跃用户有  3.3 亿,日活 7310 万,活跃着的讨论组(subreddit)有 10 万个。



回答“Reddit 的语料为何珍贵?”之前,得先问“语料为何珍贵?”。


在 AI 时代,少不了数据、算力和算法这三大要素。数据是基础,算力作为支撑,算法相当于引擎,三者相互依存、促进。


早期大模型 GPT 训练所用的文本语料中,有书籍、网页爬取、社交媒体平台、百科、代码这几类。其中就有一个叫“WebText”的语料,这个资源爬取了 Reddit 上那些至少有三个赞的内容,等于说,经过了一层初筛,标准是“是否够流行”。


图片来源:GIPHY


有意思的是,语料库的英文是“corpus”,这个词源自拉丁语,是“身体”的意思。将语料库形容为 AI 的身体不知道恰不恰当,但从“身体是革命的本钱”去理解倒是成立的,没有语料数据,就炼不了 AI



a16z 创始人 Marc Andreessen 认为,这波 AI 浪潮之所以能兴起,正是因为互联网在过去二十几年来沉淀了大量的数据。但人工智能研究和预测组织 Epoch 指出,高质量的文本数据会在 2023 至 2027 年之间消耗殆尽。


图片来源:GIPHY


虽然 Epoch 也指出其分析方法和模型的局限,但 AI 训练消耗数据的贪婪,是不言而喻的。



谁到 Reddit 上都能创建讨论组(subreddit),也可以设置“吧主”维护,这和我们知道的贴吧没什么不同。


图片来源:Reddit


Reddit 弱化了“大 V”的存在,谁都可以发言(匿名也行),谁都可以点赞、点踩,获赞数多的会被顶上去,这种排序是“民意”的反映。


你被点赞了,就能收获 Karma。这个指标,代表了用户的在社区的贡献价值以及活跃度。


目前,活跃着的讨论组有 10 万个。截至 2023 年 12 月,Reddit 上累计的帖子有 10 亿个,160 亿条回复。


在这个大型贴吧里,你能找到热门冷门形形色色的组:


比如各种 r/xxxxPorn,xxxxPorn 并不是你想的那样,通常代表着人对 xxxx 的极度沉迷,组友喜欢发布相关的“让人极度舒适的内容”,比如 r/FoodPorn、r/RoomPorn、r/DesignPorn;


警察!有人往肉卷里塞垃圾食品|Reddit 截图


比如 r/memes(收梗图的进);


图片来源:GIPHY


还有人热衷写两句话恐怖故事,以及讨论都市传说……


现任 CEO Steve Huffman 对《纽约时报》说,他认为 Reddit 的平台内容非常有价值,它们的新(newness)相关性(relevance)对大模型训练都是“刚需”。


一个在美国流量排前五的平台,每分每秒都会有新的讨论产生。至于相关性,贴吧里人以群分,话题足够垂直,讨论足够深入……在各个细分话题里,都是不那么泛化的讨论,这可能就是 Huffman 说到的相关性。


图片来源:curiousgnu.com


攒了 19 年的人类对话实录,在 AI 公司眼里,就是“黄金”。



最受欢迎的讨论组就是 r/funny,到哪都是乐子人最多|Reddit 截图


Reddit 比互联网上任何地方都够生发、容纳真实的对话,”Huffman 说,“在这里,我们能看到人在心理治疗、戒酒阶段会说的那种心里话,或者在别的地方不会说的话。”


真实,也意味着人们会在这里释放恶意。


Reddit 上不乏宣扬暴力和有色情暗示的讨论组,比如曾有一个叫“r/FatPeopleHate”的组,超 15 万人关注,他们找来胖子的照片,还主要针对女性,会给照片写上刻薄的注文。


Reddit 前产品高级副总裁 Dan McComas ,是封禁“恶意组”的关键人物。后来,他也因此被人肉、威胁。


2015 年,McComas 出来做了一个类似 Reddit 的社区 Imzy,但绝对禁止血腥色情,可以打赏其他用户,0 广告,但半年后就退场了。既不绿色也不友好的 Reddit 仍在高歌猛进。



2017 年愚人节,Reddit 搞了一个线上实验。官方先放出一张 1000 × 1000 的像素画布,并设定规则:每名用户每五分钟可以往画布上放一个像素,也就是在小格子上涂抹任意一种颜色。这种“反人类”的规则,使得用户无法独自操作,只能拉帮结社、共同创作。


就这样,文化符号、公共事件等都微缩在了最终的成品上,也没有原本不少人预想的糟糕,相反,是一种杂乱中的和谐。


这些用户既可以为了认定的图腾作画,也能让华尔街惊掉下巴。


图片来源:Wikipedia


2021 年一月初,老牌游戏连锁店游戏驿站股票不过 20 美元,最后竟一度涨到了 400 美元,这迫使知名做空机构 Melvin Capital 紧急募资 37.5 亿美元平仓认输,而做空起家的香橼宣布不再做空,只做多。


而这一切仅仅只是从 Reddit 上的一个吐槽帖开始的。一大群在游戏驿站买过游戏,在金融危机期间认为自己是被华尔街“洗劫”的 Reddit 用户,恼羞成怒,联合起来 all in 游戏驿站。“散户反击华尔街”一战,就此打响。


2020 年 3 月,那会儿刚退出微软董事会的比尔·盖茨,就在 Reddit 上直接与网友互动,回答美国网民有关新冠病毒防疫及治疗的问题。Reddit 经常能请来大牌坐镇|GIPHY



不少人在 Reddit 上说,“之所以免费,因为我们才是产品。”


Reddit 去年收紧了 API 授权,牢牢把握住自己平台的内容。埃隆·马斯克将 Twitter 改成 X 后,也这么干,有人去扒了隐私政策,发现在 2.1 条例中,明确写道:“我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型。”


另外,也有人怀疑微博评论机器人 @评论罗伯特 就是通过平台内容训练出来的机器人。它的留言画风如下:


图片来源:微博 @罗伯特受害者联盟


但 Reddit 也做了点别的:给核心用户和版主、员工的亲朋好友们预留大约 176 万股股票,占发行总额 8%(Huffman 本人的持股也就 3.3%)。不同于其他投资者,这些用户不受锁定协议约束,可以在交易首日立即出售股份。


图片来源:GIPHY




有网友抱怨,Reddit 早已混入不少 AI 生成的内容,卖给 AI 公司训练,是 AI 训练 AI 吗?


作者:malt

编辑:卧虫

封面图来源:Reddit


本文来自果壳,未经授权不得转载.

如有需要请联系 [email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
每日原则:先把问题是什么弄明白,再决定怎么做体测想拿高分竟然也能“作弊”?这个“信息差”你们不能不知道!外国人来华人数暴跌!有些东西失去了,再想拿回来就难了Stack Overflow 拿我的代码去训练 AI 大模型,还封了我的账号​全英第一的UCL脑科学学院:诺奖大佬、顶尖设备!想拿offer,你需要提前准备什么?春季着凉积食多,先把这一锅煮上!润喉去燥养脾气,这个季节最该喝40、长篇家庭伦理小说《嫁接》第十章 不期而遇(1)来,简单总结一下斯里兰卡各党的五一集会.....Stack Overflow拿我的代码去训练AI大模型,还封了我的账号​纽约华人团结一致!万人百车游行,抗议布鲁克林86街游民所建案入夏后懒得进厨房,你先把这一锅出学会了!拌一拌就能香倒一片房地产业地震!总结一下取消6%佣金对每一方的影响“在毁灭中团结一致!"澳人捐助悉尼凶案“邦迪宝宝”,华人慷慨解囊参与!网友:“这样的澳洲令人动容”企业想拿融资,先见30家政府童年故事(37):请君入瓮相请不如偶遇“在毁灭中团结一致!"澳人捐助凶案“邦迪宝宝”,华人慷慨解囊参与!网友:“这样的澳洲令人动容”“如果背弃了妻子,我的全部哲学都毫无意义。”赶在快递停运前,我想先把这双鞋子买了!别让花在脸上的钱打水漂!先把这事做好才是王道!酷特智能张蕴蓝:年轻“二代”应先把战略接过来“离婚吧,条件随便你提。”“我要你最贵的那辆超跑.”“可以。”“诚郊的别墅。”“行。”“结婚两年赚的AA。”「你拥有选择权,你随时可以选择拿起或者放下。」男子吃饭花13美元!霸气给服务生3000美元小费!竟然反悔想拿回!新婚13天就神秘失踪,美国女被发现陈尸车后座,埋在一堆衣服下。先把梦想种下,管它会不会开花纽约华人团结一致!万人百车游行, 抗议布鲁克林86街游民所建案做数据十年,第一次见这么棒的数据分析方法看“单亲妈”系列有感,家有儿女的必读这么想拿影帝,装都不装了?加拿大留学移民想拿配偶工签,但英语不好,这些双录取院校&专业适合你!10万亿市场的数据资产化背景下,工业大数据如何发挥最大价值?歪着斧子“侃侃”老出海先把账算好“网络犯罪的海啸”来袭!260亿条网络数据泄露! 你的数据安全吗?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。