国际科技财经博客移民网络热点娱乐民生时事公众号

>

恭喜弱智吧，打败AI

恭喜弱智吧，打败AI

公众号新闻

2024-04-30 01:04

作者：雷斯林

来源：雷叔写故事（raistlin2017）

最近弱智吧又火了。

说它打败豆瓣、知乎、小红书成为最佳中文AI训练数据。

事情起始于arxiv上的一篇论文，文章里中科院想建立一个优质的中文AI数据集，为此就需要在中文互联网上搜集一些语料库。

于是他们就在知乎、豆瓣、小红书等平台上找找素材，再拿去训练大模型。

说起来简单，但不是什么素材都能用。

比如他们在弱智吧上找了500个点赞最高的帖子，然后用GPT-4回答这些帖子（弱智吧的帖子经常是问句形式）。

再把帖子和回答组合成一个指令微调数据集，经过人工筛选，留下了240组数据。

有了数据材料就可以去训练开源大模型，训练分8项测试，包括问答、头脑风暴、分类、生成、总结、提取等，最后用GPT-4给这些测试打分。

精华部分来了。

跑完规模较小的Yi-6B模型后，弱智吧版本的总分排第三。

（CQIA-Subset是从各个数据源里，再次提炼出来的精华子集）

到了Yi-34B，弱智吧版本的表现遥遥领先；

小红书的语料价值则在社交媒体之间垫底了。

后来研究人员还做了安全评估，这方面弱智吧版本也名列前茅。

总的来说，弱智吧的中文数据价值很高。

网友见状一顿狂欢，谁说弱智吧里都是弱智的。

但弱智吧真赢了吗？

相比于小红书、知乎、豆瓣的上千组数据，弱智吧仅有240组数据，这是不是太少了？

而且，其他数据源用的数据都是本来就有的回答，由人类作出。

（即使小红书数据的回答部分，

看着像一键生成的，

也被标注为人类作出）

弱智吧的那组数据还是GPT-4去回答、GPT-4来评分的，那这是不是有既当裁判又当运动员的嫌疑呢？

另外，整个事情也不像媒体报道的一样，是“弱智吧训练出了超强AI”，而是“借助弱智吧等的语料库对开源大模型进行微调”。

前者是举足轻重的意义，后者只是参与其中。

话说回来，虽然数据不太严谨，但是弱智吧的段子充满了逻辑陷阱和思维谬误，很适合用来测试大模型。

这正是弱智吧成立近二十年来矢志不渝在做的事：

边搞笑，边让人变得有智慧。

弱智吧已成为一个难以名状的语言宇宙。

首先，里面充斥着最基础的傻瓜问题。

只切一刀，如何把四个橘子分给四个小朋友?
孟德尔为什么要花几年去做实验研究而不是直接看生物书？
为什么每条隧道上面都压着一座山

虽说“陨石为啥总落在陨石坑”这类问题不值得深思，但你也只有不被这些问题晃倒才能入门深造。

其次是抖机灵。

古人有那么多封号，是不是说明古人很爱开外挂?
恐怖分子是由2个恐怖原子组成的，还是由1个恐原子和1个怖原子构成的?
高考满分才750，怎么才能考985?
既然快递要3天才到，为什么不提前3天发?

面对这些脑经急转弯，起初你会觉得尴尬，但多想一秒就能多一份冷幽默。不算什么坏事。

至于那些有头有尾的段子，字里行间流露出思维上的精准毒辣，它们带着欧亨利式结尾，注定让人爽得不可开交。

-狙击手车沉着冷静的击毙了最后一名人质
-使绑匪失去了所有谈判筹码

-我家4400头猪，丢了一头，请问去哪里找啊？
-去4399找呀

-严重的恐高症害得我终身无法低头捡到钱
-我有洁癖每次拉完屎都不敢擦屁股

-朋友烧伤了，我王者荣耀有很多皮肤为什么不能移植给他?
-因为朋友没买英雄

说得越来越有感觉了，体会到语言高潮了吧。

那这时候又怎么少得了黄色笑话呢。

吧主黄医师就曾是这方面的高手，他们在十多年前脑洞大开，编出各种段子，为的就是构建起弱智吧友好交流的氛围：

你可以无下限，但一定要够深刻。

什么举世皆浊我独清，任何众人皆醉我独醒，都抵不上我很黄很暴力地醒着。

所以，用病态视角去审视正常社会里不正常一面，再合适不过了。不仅如此，看完之后你会觉得那些现实真刺激，那些段子真带劲。

接着一些对社会问题的针砭时弊呼之欲出。

“无头女尸拍大头贴竟被老板收钱惹民愤”

这是呼吁不要宰客。

“阳光洒在地上，到底是照亮了尘埃，还是隐入了尘埃？”

这是告诉我们很多电影没那么敏感。

别想多了的同时，也别想得太肤浅。

弱智吧里常常讨论性别议题。

很多吧友会站出来用浅显道理让人知道女性的不易。

弱智吧里也定期关注国际时政。

很多吧友科普知识段子，就是为了揭露国外的阴暗面。

谁说我们只讲无下限段子的，我们也关注宇宙起源、人性扭曲、道德沦丧，和世界和平。

吧友们只是在用另一种方式关心人类未来。

慢慢地，哲学味很浓的金句纷至沓来。

“怀念过去是不是在时间的长河里刻舟求剑”

最后为了升华主题，迎合时代精神，

许多段子主打一个劝人向善、活着就好。

这些帖子里不仅楼主发言犀利，评论区同样意味深长地讲着警世恒言，让人对世界失望悲伤的同时，产生一点点好感。

换言之，弱智吧里都是说最狠的话，讲最善的事。

看到这里你也就明白，这个吧里真没弱智，反而存在着被人忽视的生活达人和哲学大师。

他们对世界真相的揭露入木三分。

他们不像广告推荐里说得傻里傻气，急需治疗。

世界参差不齐，但对才华的识别向来一致。

他们的存在，表明弱智吧在与AI较量中，暂时领先半个身位。

一个不争的事实是：

现在各平台的语言越来越扁平和匮乏，深度复杂的逻辑越来越没人看了。

要不就是弹幕里粉圈互撕。

连古人都不放过。

要不就是生造缩写。

你惊呼yyds，我回复“蓅氺般の噯情”，咱们都有叛逆的青涩时光。

要不就是对飚表情包。

你没读懂是你out了，大叔不能怪你，因为年轻人扼住了互联网的咽喉。

要不就是阴阳怪气。

评论区里随意选一个表情符号，不打上“崩急乐孝典”等文字，都能提升嘲讽技能。

要不祖安人式骂街。

构建一个“以对方母亲为圆心、直系亲戚为半径、生殖器为主武器、意淫为主技能，配以伦理、两性、家畜、宠物、殡葬行业等领域的特有动词及名词”的脏话体系。

要不隔段时间刷“中式浪漫”。

前脚是“人不就活几个瞬间”，后脚是“咱俩一辈子幸福就完了”。

要不劣币驱逐良币。

“十二生肖过13.5年”本是由“姬霓太美”演化出来的段子，但现在手机浏览器里，前几条根本搜不到正确答案。

（切换到搜狗或360搜索，

首页里也是玩梗为主）

最后呢，为了造梗而造梗，而不是去生成鲜活的语言艺术。

以致于狂欢过后，带来的好像只是一场场黑话盛会。

此时此刻，弱智吧这种看似弱智，其实蕴含哲理的思考，非常难能可贵。

没有连篇客套话，不需要付出巨大理解成本，最后也不出现卖课广告，有的就是三言两语告诉你世间一些残酷真相。

可能嘴臭，或许悲观，但比惺惺作态好很多。

更何况，人家骂人骂得如此搞笑，很有技术难度；更何况，人家也兢兢业业写着中文字。

希望以后关于世界的深度思考，不要只能装成是精神病人的呓语才好。

为此，我们最后附上去年下半年的弱智吧精选内容。

篇幅有限，选了45条，大家也可以练一练自己的思维。

（图源：弱智吧日常）

（图源：弱智吧日常）

（图源：弱智吧日常）

-END-

本文作者雷斯林，他之前有个同名公众号被封了，欢迎关注他的新号“雷叔写故事”。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

一个县，打败日本一个国！全球最大的船舶订单，竟被这座小城拿下汪正贵：和孩子一起打败问题，而不是和问题一起打败孩子。打败 Midjourney，这个异军突起的 AI 产品凭什么？| 附免费试用链接 2024全美「最佳本科教学」排名发布！这所冷门校打败哈耶普麻又是第一！被现实打败！加拿大百万留学生渴望3步移民拿PR留下！最终却被迫辍学，打工赚生活费...没想到吧，中文互联网上最好的大模型语料库是：弱智吧开封王婆，被江西彩礼打败了…Mamba架构第一次做大！混合Transformer，打败Transformer 文献计量分析，正在让为晋升SCI而苦恼的医生，逐渐摆脱论文恐慌。。。万万没想到，打败“论文工厂”的，竟然由大数据发展所致！大模型中文微调最佳神器！"弱智吧"is all you need 开封王婆，被江西彩礼打败了......打败“白人饭”，打工人开始吃盖浇饭减脂了？|【经纬低调分享】刷屏看‘’曹奶奶爱唠嗑‘’小思考丨打败拖延打败巴菲特的“王”走了不雇商学院毕业生 7053 血壮山河之枣宜会战宜昌溃战 9 Anthropic找到了打败OpenAI的方法：自己也成为OpenAI 15年前的“点读机女孩”，打败了网暴，击碎了谣言，如今又挺过了开颅…探索视频理解新境界！在12项任务中，Mamba先打败了Transformer 什么弱智吧，叫哲学哥！我妈打败杨紫琼宋佳，登上了巴黎世家广告吃饭不健康，癌症风险可能更高！《细胞》发现糖代谢致癌新机制；弱智吧竟成最佳中文AI训练数据？测试远超知乎豆瓣小红书｜本周论文推荐弱智吧：大模型变聪明，有我一份贡献打败 Midjourney，这个 Google 大牛推出的 AI 产品凭什么弯道超车 [电脑] 打败你的可能不是你的竞争对手，完美的相机出行伴侣极空间T2【仅支持pcie3.0】大模型中文微调最佳神器！「弱智吧」吊打小红书、知乎、豆瓣...黄人饭打败白人饭，北京白领开始吃盖浇饭减脂了 “弱智吧”，人类抵御AI的最后防线打败新东方的，是海底捞旅行的尽头是日本（27）东京的第一家兰州拉面应要求写个职场系列（4）美股基本面 - 2024_03_01 * 晨报 * 纽约社区银行盘前大跌公司发现内控存在重大缺陷、CEO也被撤换。世贸组织部开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线弱智吧，人类抵御 AI 的最后防线 “潜伏” 3 年想植入后门，最终被 Bug 打败了

热点事件追踪