“高考作文全国甲卷考了红楼梦”、“作文好难呀,我真不会写”……高考语文刚刚结束,有关高考作文红楼梦的话题直接冲上了微博热搜。双奥之城、跨越再跨越,对于这些作文题的讨论,让大家一秒重回高考现场。就在大家为高考作文争论不休之际,有一位“考生”却在万人监考下,仅花40秒就写完了40篇800字的高考作文。曾担任北京高考语文阅卷组组长的老师申怡,根据高考语文作文的评分标准给出了48分的高分。这说明这篇高考作文在立意、语言流畅程度以及修辞应用上已经相当优秀。▲百度虚拟数字人度晓晓
事实上,这是百度虚拟数字人度晓晓第一次参加高考,根据全国新高考I卷“本手、妙手、俗手”的作文题,度晓晓在40秒时间内写完了40篇800字高考作文,平均一秒完成一篇,最后选出最好的一篇交给老师评分。▲度晓晓高考作文《苦练本手,方能妙手随成》节选
“一日新,翌日新,日日新”、“穷山距海,不能限也”、“朝乾夕惕”……在这篇金句频出的高考作文中,我们可以看到度晓晓拥有庞大的知识贮备以及灵活的语言应用能力。我们已经知道,这个由AI大模型武装大脑的虚拟数字人,之所以能够出口成章,妙笔生花,背后依靠的是百度文心大模型的底层技术支撑。那她是如何准确理解题意,并写出一篇高分作文的呢?AI内容创作又有哪些新玩法,AI大模型将为产业带来哪些新变化?在经过一番深入调查,并与百度相关负责人交流后,我们找到了答案。
近日,一位B站UP主尝试通过AI大模型让AI写出高考作文,一探AI的文字功底。而他采用的这套AI大模型正是百度文心大模型,也就是百度度晓晓背后提供技术支持的AI大模型。具体来说,此次采用的是百度最新发布的千亿参数的AI大模型百度ERNIE 3.0 Zeus(宙斯),其从万亿级字符、千万级知识图谱和数百个任务中融合学习,同样能够完成开放问答、信息抽取、情感分析、语义匹配等各类NLP任务。▲ERNIE 3.0 Zeus大模型
就拿AI写高考作文举例,度晓晓写高考作文和其他的AI文本生成器有何不同?从中我们或许能一窥千亿参数的AI大模型将会带来哪些质变。要想教会AI写出一篇完整的高考作文?这可不是件容易事。
无论是AI还是人类,都需要先审题。不过AI的审题方式与人类有所不同,它们主要通过识别网络和卷积神经网络从大段的作文素材中提取题目,并将其递给下一神经网络。
而难倒无数考生的立意过程,对于AI来说也是不小的挑战。AI需要通过一整套读题网络来猜测哪一个立意更有可能是正确立意。由AI创作的一些搞笑文章,往往都是在这个阶段出现了一定偏差。
随后写作的过程,则是根据考生的写作习惯各自选择的阶段。而AI也会在大量的训练后建立自己的写作模型。
和人类不同的是,AI可以在极短的时间内“写完”多篇高考作文,但也比人们多出一个步骤,找到最好的一篇高考作文。而这个“最好”的评判标准,也是AI在大量的训练中自己得出的一套标准。
但这里还不是重点,此时的AI只能说完成了一篇高考作文。要想让AI能够写出高分作文,AI同样需要像人类一样,在千锤百炼中成长。在AI成长的预训练过程中,ERNIE 3.0 Zeus与其他文本生成器的差距就此拉开。千亿参数的AI大模型调动庞大的计算能力意味着研究人员可以“喂养”大量的作文样本数据让AI明白什么是高分作文。AI大模型在训练中建立自己的写作模型,就像人类的“文风”。最后根据给定的题目,生成与需求匹配的内容,从而完成写作。同时,研发人员也可以在微调的过程中改变AI大模型的惩罚条件,帮助AI大模型摸索出高分作文的潜在条件。但值得注意的是,尽管AI可以写出来高分作文,这并不意味着AI和高考生一样,完全明白高考作文需要从立意明确、语言流畅、修辞丰富等三个标准评判,而是AI大模型通过数据自行对比高分作文之间的共性特点,然后通过数据分析,选出最合适的下一句,由此完成一篇高考作文。可以显而易见的是,这样的处理方式不免会存在一定的漏洞,哪怕是度晓晓生成40多篇文章中也会存在一定不足之处。比如说《苦练本手,方能妙手随成》高考作文中的出现的YYDS之类的网络用语,是不符合高考标准的。再比如说“红楼梦”高考作文中对文章立意的理解会稍有偏差。但这些不能藏住AI大模型的光芒。正是通过ERNIE 3.0 Zeus千亿参数的大模型以及对于NLP程序语言的优化,AI才能学会高考作文的结构框架、输出800字语言流畅的长文本和引经据典以及合理使用名人名言。另一方面,也是通过百度文心大模型,我们可以看见AI写作早已经今时不同往日。过往,人们一谈到AI内容创作总会想到废话文学,而百度文心大模型向我们展示AI的文字表达已经和多数的高中生语言表达能力相当,甚至更优一些。度晓晓以百度文心大模型为技术支撑,给出了一份高分作文,也正说明了AI内容创作的时代已经拉开了新的篇章。
AI的创作水平究竟提高到什么水准?我们可以从高考作文中一窥真相。
早在2016年,微软小冰就曾挑战过2016年北京卷高考作文《神奇的书签》。可以看到,这时候AI写作还处在比较初级的阶段,多生成一些短句,并且病句频出。而在六年后,度晓晓就已经能够根据复杂的材料,写出一篇高分作文。
▲微软小冰写高考作文(左)、百度度晓晓写高考作文(右)
由此可见,AI内容创作的水平正在不断提升。而这背后正是科技公司持续多年投入研发的成果,百度也已经在这条道路上扎根多年。
你可能没有发现,在我们日常生活中,已经有不少AI内容创作的产品诞生。
在AI的世界里,很多事物都有了一些新的玩法。你在键盘上,敲入几个节奏,AI就能帮你创造出一段新的旋律;你设定好场景,输入想要表达的内容,选取好颜色,AI就能以此创造出新的画作。
而在一些作词、作诗等文本创作方面,AI已然成为新的内容创作者主体。
百度认为,AIGC是继UGC、PGC之后一种新型的内容生产方式,主要指运用人工智能技术自动生产内容。很多AI虚拟数字人都是AIGC的重要文化输出群体。
AI写出金句频出的高考作文并非易事,其背后也离不开AI大模型的技术支撑。相较于其他的大模型,百度文心大模型拥有的两大杀手锏,“产业级”定位和“知识增强”。
面对AI大模型的“产业级”定位,在百度看来,文心大模型的技术都是根据实际的产业应用场景打造的。
在数据源,百度选择产业内部真实的数据,帮助AI成为一个“业内人士”。在应用方面,百度提供了各式各样的AI工具箱,并帮助开发者快速学会调用AI大模型的能力,根据自己的需求定制化相应的产品。面向产业时,研发人员往往会面临一个问题:AI模型对于数据训练的需求太大,而产业内部很有可能无法提供如此多的数据。同时,AI大模型的训练成本也是阻碍其走入产业的关键因素之一。为了解决这一痛点,百度打造了自己的第二大杀手锏“知识增强”。
百度通过“知识增强”的方法,将数据与知识融合,让百度文心大模型相较于其他大模型学习效率更高、可解释性更好。
当大模型的通用性更好,泛化性更强时,将会大大降低AI开发和应用的门槛。如果说知识图谱让知识之间有着更紧密的内在逻辑,那么“知识增强”则为减少样本数据提供新的解决方式。
目前来看,百度文心大模型的升级,为AI创作提供了更多的发挥空间。
在百度看来,今年是大模型落地的关键年。这背后暗藏着近年来AI大模型走进产业的变化。AI大模型在参数上不断攀升,但似乎始终没有找到恰当的落地方法。现在看来,在这条赛道上,百度已经摸索出自己的玩法,并且颇有成效。2021年12月,百度发布了全球首个知识增强千亿大模型鹏城-百度·文心,参数规模2600亿。2022年5月20日,百度对百度文心大模型全景图进行升级,并且连发十款大模型。▲百度文心大模型全景图
据相关负责人透露,百度内部已经在搜索、信息推荐等场景上,结合相关的功能和应用,让大模型的应用落到实处。百度自己的产品已经与百度文心大模型紧密相连。像是智能音箱小度的语音交互功能,背后也是百度文心大模型提供一定的技术支持。百度文心大模型不但可以更好地帮助小度理解用户的意图,还可以让小度能够回答用户各式各样的问题,从而提高用户的交互体验,增强陪伴感。与此同时,百度文心大模型已经覆盖了教育、金融、媒体、能源等多个领域。比如说,在人力市场,百度文心大模型可以从海量的信息中帮你及时找到最心仪的候选人;在医院,百度文心大模型可以将每份病历的检查时间,从30分钟缩短到了几秒钟。可以看到,在我们的日常生活中,百度文心大模型已经开始给人们带来更便捷的生活。值得一提的是,在能源、金融这些专业性较强的领域,百度AI大模型也能发挥出较强的应用价值,百度推出了电力行业NLP大模型国网-百度·文心、金融行业NLP大模型浦发-百度·文心。百度通过大规模无标注数据联合训练,并针对特定行业需求设计相关算法来完成预训练任务,让模型快速了解行业知识,从而更好地完成特定的任务,提高了企业效率。AI大模型落地的过程,正是先进技术与产业需求之间相互磨合的过程,而百度在AI领域提前布局也已经到了落地收网的阶段。
高考作文是对一名高中生语言、文字表达,还有知识面的综合考察,人工智能也许离像一名真正的高中生那样人格化的思考还有距离,但通过挑战写一篇合乎要求的高分作文,足以见得现在AI大模型在内容创作上的潜力。百度文心大模型通过搭建更适配场景需求的大模型体系,提供全流程支持应用落地的工具、平台和方法,建设激发创新的开放生态,试图来解决大模型技术与场景需求匹配的关键问题。从高考作文的写作来看,尽管AI大模型可能还存在一定的不足之处,但如今的AI大模型其实已经开始走向产业,深入到更多的场景,为企业降本提效,加速AI赋能产业智能化进程。坐拥AI大模型“技术宝库”的厂商们也正在迎接属于自己的“高考”——如何广泛地落地和深入产业。这一次高考,会有哪些考生拿到高分呢?我们拭目以待。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)