“疯狂污染中文互联网”的,并不是AI
平台层面限制AI生成内容,短期内可能有必要,但长期来看就不一定了。 社交平台并没有真正的技术能力,来自动“预判”和限制AI生成内容。 当AI生成内容有可能“污染”大模型时,模型开发者应该负起更多责任,而不是社交平台。
为什么会发生这种事?
从知乎到必应AI,这条神奇的链路是如何形成的?
必应AI是最早一批联网的大语言模型,很久以后才有谷歌的Bard和百度文心一言可以联网。而ChatGPT官方联网功能也是跟必应合作,这使得必应作为一个搜索引擎,对AIGC的意义非常特殊。
但必应本身并不是一个很优秀的搜索引擎。在某些中文问题上,必应的检索能力并不强于百度,可能只是广告相对少一点;相对谷歌,必应则有更大的劣势。
中文互联网更严重的“围墙花园”现象,则让搜索引擎的能力进一步受限。目前已知必应无法读取微信公众号文章,对头条号、百家号等收录也不完整。
必应AI功能刚小范围内测时,甚至在百度官宣“文心一言”之前,知乎就已经是其中文回答里最常见的参考来源。它内容质量相对较高,又不限制搜索引擎的抓取。
通过这种曲折的关系,知乎成为了一个对AI非常特殊的存在——一个“公版”的语料来源。
3-4月起,AI开始在各行各业开始替代人工写作。在各个社交平台上,这种替代的速度是不同的。
在微博、小红书等地,它“入侵”文本内容相对较慢。但知乎和公众号、头条号、百家号等平台,内容以中长篇文字为主,这些地方几乎同步被“入侵”。
AI内容不是新鲜事,但短期只能“一刀切”
ChatGPT火爆已有半年。这段时间里,知乎、抖音、小红书等社交平台都已经发布了限制AI生成内容的规定。总体上它们都是需要发布者对AI生成部分明确标记,以及对缺乏人类介入的纯AI内容严肃查处。例如,抖音禁止没有“中之人”,完全由AI生成问答的直播。
对此,娱乐资本论的观点始终如一:AIGC就像其他任何工具一样。当AI生成内容“污染互联网”的时候,错的不是工具,而是使用工具的人。
自动化生成垃圾内容,并填充到网上的生意古已有之。
针对搜索引擎的优化(SEO)结果,大多数真人都是看不见的,只对机器规则有意义。 10多年前就有打散文章顺序,同义词替换等“伪原创”技术。 稍微动点心思的人工“洗稿”在公众号时代屡禁不止,微信不得不组织一些德高望重的“陪审团”来处理洗稿争议。
识别AIGC内容的技术困难
问题在于,目前的技术手段很难有效判断一段内容是否由AI生成。我们之前对秘塔科技的采访中也提到了这一点。
在计算机领域,有一个常识性的道理——首次生成内容,永远是比二次处理同一条内容更简单的。举例说,将一段话以“中翻英,英翻中,再翻回去”的方法过很多遍机器翻译,它就会变得难以辨认。
对于AI生图,可以考虑让国内外的作图工具出图时加水印之类。但Stable Diffusion完全开源,不能号召所有人都这样。 即使如此,AI生成的文字内容也是不可能“加水印”的,而且大模型本身就是一种很好的文本润色工具,将生成内容再过一遍AI,即可大大降低“GPT体”被看出来的概率。
大模型开发者应为反“垃圾”负更多责任
如果不解决这个问题,放任AI生成内容被重新投喂到大模型中反刍,结果将引来模型的“崩溃”。意思是,用片面的信息不断自我强化,最终只能生成对人毫无意义的内容。
在牛津大学、剑桥大学的研究人员发布的一篇预印本论文上,讲述了得出这个结论的过程。研究人员的解决方法是,模型开发者应继续手动保留一部分人工制作的语料,和真人打标签的过程。
但这似乎越来越不容易。在英语世界中,亚马逊的外包服务网站MTurk经常被AI开发者用作标注任务。然而MTurk上的劳动者,现在在做任务的时候也广泛的采用AI辅助。
如果外包人员不加说明,人们会误以为这些机器做的标注是“纯天然无污染”的。可是,一些人类看了觉得没什么的“抖动”,会在缺乏人类监督的情况下,迅速自我强化,最终让算法得出错误的结果。
如果语料和训练的自动化不可避免,该怎么办?
有人提出,上述研究的盲点是只会用最简单的方法来提问。因此,可以从训练方法,甚至是prompt的多样性上做文章。适当的prompt才会激发AI扮演不同人格,调用不同领域学来的知识。
另一种思路,是使用人类有偿或义务劳动的办法来打标签。验证码服务Recaptcha曾经帮助识别了很多印刷书籍,现在它让输入验证码的人类帮AI生成的图像打标签。
知乎目前拥有一个很好的评价机制,人们用“赞同”“反对”为答案投票。尽管不都是反映答案品质,也可能是表达一种情绪,但这个投票机制很难把高票投给“GPT体”的回答。被封禁的“百变人生”也符合做号的“三无小号”特征,容易被识别。所以,知乎可以利用好这种排名机制中的人类劳动,并让必应等搜索引擎在抓取时,注意到答案权重的区别。
如果继续想下去,那么普通用户的真人操作,还将以各种方式被更好地利用,甚至不排除给钱——一个可能无关的例子是,大众点评上的很多商家会对真人打卡行为给予奖励。
无论如何,模型开发商无法“号令”为其提供语料的平台,帮自己预先筛选掉AIGC内容。随便一想就知道这太过分了:它们甚至本来应该给平台和用户们钱,才能使用这些语料数据的。
当StackOverflow以及Reddit宣布限制AI生成内容,以及限制抓取站内信息的时候,不论是模型还是社区用户都对此无能为力,只能是那些先下手抓完的平台抢占先机。
大模型制造者为了采购好数据,将付出比现在更多的代价。能确保有优质人类内容的社区,将来可以有很好的商业价值。
社交平台们也可以考虑提升创作门槛,保留人类亲手写内容的“火种”。例如小红书和即刻那样,隐蔽或取消桌面写作入口,将社区变成“移动优先”。
总而言之,这次大模型们这次必须自己解决“污染”问题,而无法寻求其一直(偷偷)利用的社交平台的帮助。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章