说它打败豆瓣、知乎、小红书成为最佳中文AI训练数据。事情起始于arxiv上的一篇论文,文章里中科院想建立一个优质的中文AI数据集,为此就需要在中文互联网上搜集一些语料库。于是他们就在知乎、豆瓣、小红书等平台上找找素材,再拿去训练大模型。比如他们在弱智吧上找了500个点赞最高的帖子,然后用GPT-4回答这些帖子(弱智吧的帖子经常是问句形式)。再把帖子和回答组合成一个指令微调数据集,经过人工筛选,留下了240组数据。有了数据材料就可以去训练开源大模型,训练分8项测试,包括问答、头脑风暴、分类、生成、总结、提取等,最后用GPT-4给这些测试打分。跑完规模较小的Yi-6B模型后,弱智吧版本的总分排第三。(CQIA-Subset是从各个数据源里,再次提炼出来的精华子集)后来研究人员还做了安全评估,这方面弱智吧版本也名列前茅。相比于小红书、知乎、豆瓣的上千组数据,弱智吧仅有240组数据,这是不是太少了?而且,其他数据源用的数据都是本来就有的回答,由人类作出。弱智吧的那组数据还是GPT-4去回答、GPT-4来评分的,那这是不是有既当裁判又当运动员的嫌疑呢?另外,整个事情也不像媒体报道的一样,是“弱智吧训练出了超强AI”,而是“借助弱智吧等的语料库对开源大模型进行微调”。话说回来,虽然数据不太严谨,但是弱智吧的段子充满了逻辑陷阱和思维谬误,很适合用来测试大模型。孟德尔为什么要花几年去做实验研究而不是直接看生物书?
虽说“陨石为啥总落在陨石坑”这类问题不值得深思,但你也只有不被这些问题晃倒才能入门深造。恐怖分子是由2个恐怖原子组成的,还是由1个恐原子和1个怖原子构成的?
面对这些脑经急转弯,起初你会觉得尴尬,但多想一秒就能多一份冷幽默。不算什么坏事。至于那些有头有尾的段子,字里行间流露出思维上的精准毒辣,它们带着欧亨利式结尾,注定让人爽得不可开交。-朋友烧伤了,我王者荣耀有很多皮肤为什么不能移植给他?
吧主黄医师就曾是这方面的高手,他们在十多年前脑洞大开,编出各种段子,为的就是构建起弱智吧友好交流的氛围:什么举世皆浊我独清,任何众人皆醉我独醒,都抵不上我很黄很暴力地醒着。所以,用病态视角去审视正常社会里不正常一面,再合适不过了。不仅如此,看完之后你会觉得那些现实真刺激,那些段子真带劲。“阳光洒在地上,到底是照亮了尘埃,还是隐入了尘埃?”谁说我们只讲无下限段子的,我们也关注宇宙起源、人性扭曲、道德沦丧,和世界和平。这些帖子里不仅楼主发言犀利,评论区同样意味深长地讲着警世恒言,让人对世界失望悲伤的同时,产生一点点好感。看到这里你也就明白,这个吧里真没弱智,反而存在着被人忽视的生活达人和哲学大师。他们的存在,表明弱智吧在与AI较量中,暂时领先半个身位。现在各平台的语言越来越扁平和匮乏,深度复杂的逻辑越来越没人看了。你惊呼yyds,我回复“蓅氺般の噯情”,咱们都有叛逆的青涩时光。你没读懂是你out了,大叔不能怪你,因为年轻人扼住了互联网的咽喉。评论区里随意选一个表情符号,不打上“崩急乐孝典”等文字,都能提升嘲讽技能。构建一个“以对方母亲为圆心、直系亲戚为半径、生殖器为主武器、意淫为主技能,配以伦理、两性、家畜、宠物、殡葬行业等领域的特有动词及名词”的脏话体系。前脚是“人不就活几个瞬间”,后脚是“咱俩一辈子幸福就完了”。“十二生肖过13.5年”本是由“姬霓太美”演化出来的段子,但现在手机浏览器里,前几条根本搜不到正确答案。最后呢,为了造梗而造梗,而不是去生成鲜活的语言艺术。此时此刻,弱智吧这种看似弱智,其实蕴含哲理的思考,非常难能可贵。没有连篇客套话,不需要付出巨大理解成本,最后也不出现卖课广告,有的就是三言两语告诉你世间一些残酷真相。更何况,人家骂人骂得如此搞笑,很有技术难度;更何况,人家也兢兢业业写着中文字。希望以后关于世界的深度思考,不要只能装成是精神病人的呓语才好。篇幅有限,选了45条,大家也可以练一练自己的思维。本文作者雷斯林,他之前有个同名公众号被封了,欢迎关注他的新号“雷叔写故事”。