大模型只有"大"一条路吗?
最近这半年,整个科技圈没有比大模型更火的事了。在咱们中国,各式各样的大模型发布会也是一波接着一波,让人应接不暇。
不过有个消息,不知道大家注意到了没有: ChatGPT在成为史上最快突破一亿用户的应用以后,最近的日活增长似乎比较乏力。个人体会,可能有两方面的原因:一是通用AI的能力虽强,但是在很多具体应用中,还需要一些自然语言以外的能力才能转起来;二是这玩意儿还是太贵了,不信您算算:目前,GPT4每一千个prompt token要收3美分,一千个completion token要收6美分,还真不是普通人能撒开了用的!
正困惑于这两个问题,说来也巧,我在网易楼下的咖啡馆碰到了有道的CEO周枫。我跟周总也算是老朋友,多年前就曾在一起深入交流互联网商业化的话题。正好他有点时间,我就拉他聊了一会儿,抛出了我的疑问。
没想到周枫听完,立刻兴奋起来:“你知道,我们是专注于教育领域的技术赋能的公司,对你说的这些问题,体会更深切。我个人坚信,存在另外的一条路,让大模型在领域落地和成本优化方面有更快的进展,从而真正普惠更多人!”
他告诉我,有道在大模型方面的努力,与其他大厂有些不同,主要关注两方面的问题:一、在特定场景中,大模型有没有高效、低成本的实现方案?二、在技术方案的精简化中,闭环的应用场景拉动,应该起到多大的作用?
于是,我们热烈地讨论了两个小时,我把其中一些有趣的技术观点和产品实践记在这里,希望对大家有所启发。
螺旋式上升的自然语言处理
咱们先说远点。其实如果放眼自然语言处理整个领域的方法论发展,正逐渐浮现出一种“螺旋式上升”的宏观历程。
多年前在微软研究院做AI项目时,应该说,业界对自然语言处理还处于束手无策的状态:建模空间过于庞大,语言现象规律庞杂。而当时的工程实践,一种思路是在垂直领域问题中分别建模,希望能降低数据收集和建模的难度。
后面的事大家也都了解了,这条路基本上没走通。打个比方说明一下,也很简单:这就好比要培养一个律师,为了减少课时,从识字就抱着法律文本啃;可是实际上,无论你多牛的天资,总得先完成九年制义务教育,才具备专研法律的基础。
也就是说,对人类语言中庞大的常识和背景知识的建模,这是个看起来离题较远,但是在任何领域都绕不开的事儿。可是,对整个人类语言建模,这事儿挑战太大,多年以来没啥进展。
直到五年前的BERT大模型横空出世,这事儿才在工程上有了眉目:用海量语料和令人咋舌的参数规模,学习语言中的常识和背景知识,终于在ChatGPT上结出了硕果。它似乎突然就具备了一个九年制义务教育毕业生的思维水准,让业内外的所有人震惊。于是,各界有识之士纷纷惊呼:通用人工智能来了!图灵测试已经翻篇了!
然而从应用的角度,经过了这几个月的实践与沉淀,客观地讲:大模型还远没到达万能的程度,虽然他如同一个百科全书式的知识竞赛选手,但是在具体的某个领域中,往往在准确性和深入性上,还差那么一口气。
这就引出了周枫说的两个问题:知识竞赛型选手要成为领域专家,还有哪些工作要做?以专家为目标的选手,是不是可以不在所有领域上平均用力,从而降低学习和服务成本?
而有道的子曰,就是在这种探索精神下诞生的一种有趣的大模型,也是对我们今天讨论的话题最好的示例,它有些什么新思路呢?
场景拉动的领域大模型
有道子曰的思路,我把它成为“场景拉动的领域大模型”。提炼一下周枫思路的话,有三个关键词:应用场景拉动、大模型方法、行业数据加强。
既然说场景拉动,咱们先说说有道的大模型会首先在哪些领域落地。周枫说,有道目前主要关注以下六个场景:口语教练、作文与阅读教练、各科习题答疑、编程学习答疑、对话助手、知识工作助手。显然,这些都属于有道耕耘多年的教育领域。
咱们就先展开聊聊口语教练这个场景,由AI代替人跟学生做半开放式的聊天。这既是子曰大模型首先产品落地之处,也是普遍认为大模型擅长的应用。这个场景的技术成熟以后,可以实现个性化的英语口语教学,极大地缓解教学资源不足的问题,打造一个AI版的VIPKID。其实,仔细看看的话,上面说的六个场景,也都是围绕着“个性化教学”,也就是“因材施教”这个主题展开的,而为了致敬因材施教理念的提出和践行者,大成至圣先师孔子,有道的大模型才以“子曰”为名。
在口语教练这个应用上的最后一公里,工作也不少。显性的比如语音识别和语音合成的接入,在词典笔等硬件设备上的落地;隐型的则需要更多积累:因为口语陪练不完全是随意聊天,而是要在此过程中围绕教学目标,嵌入一定的主题和知识点,这需要在英语教学行业中的知识和方法沉淀。
有道以往在教育领域的长期技术投入,在这一点上派上了很大的用场。我随便举个例子:词典笔有时候要在非联网的场景下使用,这就意味着端上的模型算力要足够强。而有道新款的词典笔,模型大小增大了15倍,错误率下降60+%,识别速度却提升了50%。
另外,2017年Transformer诞生以来,有道底层的NMT、OCR、ASR等AI能力已经统一在了Transformer模型之下,这为本次的子曰大模型打下了一定的基础。
在教育的六大应用场景中,开展大模型的构建,就是有道子曰大模型“场景拉动”的含义。也就是说子曰大模型,会以具体应用的实际效果为目标来优化,而不是上来就追求通用大模型那种无不知、百行通的能力。显然,聚焦领域,有可能让解决问题的成本降低,同时,实用化也必然要求成本降低,否则就还是难以落地。
当然,这并不意味着回到过去的垂直领域建模!实际上,子曰的底层仍然是最新的标准大模型方法,这才能说是螺旋式上升,而非穿新鞋走老路。只不过,在子曰中,对大模型作用的期望发生了一些微妙的变化。
通用的跨领域大模型,有两个核心作用:一是“把话说顺”,也就是掌握语言的基本规律和逻辑,理解和生成内容时能做到尽可能流畅;二是“把事搞清”,也就是理解和回答中的知识性、事实性内容要尽可能准确。关于这两个目的,研究者们有过半定量的评估:“把话说顺”所需要的语料规模,要比“把事搞清”小一个数量级甚至更多。
于是,这里的技术机会就浮现出来了:如果把对大模型的要求调整一下,让他做到“把话说顺”的同时,只在某个领域里“把事搞清”,是有可能事半功倍地解决这个领域里的实际问题的!这也就是有道在大模型时代的基本思路。
那么,怎么样在某个领域里“把事搞清”呢?那恰恰是场景带来的价值!由于模型在实际场景中落地,通过该场景提供的行业数据和用户反馈,是可以用比较小的投入,获得较好的领域效果的!
还是打个比方,按照这个办法学习出来的大模型,好比有点“偏科”的尖子生:语文数学能及格,跟正常人交流都没问题,但是他在这些科目上花时间不多,而是把主要精力放在了英语上,成了在英语科目上由一技之长的人才。显然,这要比每门课都平均用力,门门都要拿一百分不可要容易不少。
方向是如此,那么子曰沿着这个思路进展到什么程度了呢?听有道的朋友说,很快将要上线的口语教学大模型,参数规模相当精简。更重要的是,实际设备上的内测单次推理成本,也只有通用大模型的十分之一以下,这才能在实际应用中广泛采用。
除了口语教学,大家如果想体验一下子曰的话,可以关注一下有道最近上线的AI BOX功能,它可以提供句子润色、语法纠错、写作建议、重点提炼等作文与阅读教练功能。因为AI BOX和有道翻译的会员是关联的,所以上线才几个星期,有道桌面端四分之一的会员收入都来自于AI BOX了,可见用户对它的接受程度。
那么,在场景拉动的领域大模型和通用大模型之间,有道的长期战略会做何种抉择呢?听周枫的意思,这两条道路并不矛盾:在确定的专用领域应用中,完全可以通过行业数据加强的方法,打造低推理成本的模型,加速模型的落地;而随着有闭环应用数据的行业越来越多,模型就可以越来越“多才多艺”,逐渐向通用的大模型演进,当然,其推理成本也会相应提升,落地的难度也会加大。
@-@
以ChatGPT为代表的大模型的横空出世,展现出令人惊叹的强大跨领域智能,也让AI相关行业的技术发展都切换到新的范式上。不过同时,他也将一个现实的问题摆在了面前:在本来就非常垂直的应用场景中,如何快速、敏捷地将大模型技术,用可控的成本落地呢?
为了解决这个问题,大家各显神通。不过不论是Facebook的LLaMA,陈天奇等人的手机上大模型方案,都是在问题不变的情况下,探索简化模型的通用技术方案。然而从实用的角度看,确实在有些场景下,大模型不一定要门门百分,而是可以偏科的。于是,以有道为代表的场景拉动的领域大模型的思路,也就应运而生了。
经过有道的探索,通过在垂直领域内打造实际的闭环应用反馈,同时利用大模型架构基本语言常识的能力,打造出成本可控、效果超群的垂直模型,是相当可行的一条新路。这条路如果走得顺利,将大大助力大模型的加速迭代和应用落地。
加入星球,探讨用户增长与变现专业话题
微信扫码关注该文公众号作者