大模型只有"大"一条路吗？

2023-05-24 10:05

最近这半年，整个科技圈没有比大模型更火的事了。在咱们中国，各式各样的大模型发布会也是一波接着一波，让人应接不暇。

不过有个消息，不知道大家注意到了没有： ChatGPT在成为史上最快突破一亿用户的应用以后，最近的日活增长似乎比较乏力。个人体会，可能有两方面的原因：一是通用AI的能力虽强，但是在很多具体应用中，还需要一些自然语言以外的能力才能转起来；二是这玩意儿还是太贵了，不信您算算：目前，GPT4每一千个prompt token要收3美分，一千个completion token要收6美分，还真不是普通人能撒开了用的！

正困惑于这两个问题，说来也巧，我在网易楼下的咖啡馆碰到了有道的CEO周枫。我跟周总也算是老朋友，多年前就曾在一起深入交流互联网商业化的话题。正好他有点时间，我就拉他聊了一会儿，抛出了我的疑问。

没想到周枫听完，立刻兴奋起来：“你知道，我们是专注于教育领域的技术赋能的公司，对你说的这些问题，体会更深切。我个人坚信，存在另外的一条路，让大模型在领域落地和成本优化方面有更快的进展，从而真正普惠更多人！”

他告诉我，有道在大模型方面的努力，与其他大厂有些不同，主要关注两方面的问题：一、在特定场景中，大模型有没有高效、低成本的实现方案？二、在技术方案的精简化中，闭环的应用场景拉动，应该起到多大的作用？

于是，我们热烈地讨论了两个小时，我把其中一些有趣的技术观点和产品实践记在这里，希望对大家有所启发。

螺旋式上升的自然语言处理

咱们先说远点。其实如果放眼自然语言处理整个领域的方法论发展，正逐渐浮现出一种“螺旋式上升”的宏观历程。

多年前在微软研究院做AI项目时，应该说，业界对自然语言处理还处于束手无策的状态：建模空间过于庞大，语言现象规律庞杂。而当时的工程实践，一种思路是在垂直领域问题中分别建模，希望能降低数据收集和建模的难度。

后面的事大家也都了解了，这条路基本上没走通。打个比方说明一下，也很简单：这就好比要培养一个律师，为了减少课时，从识字就抱着法律文本啃；可是实际上，无论你多牛的天资，总得先完成九年制义务教育，才具备专研法律的基础。

也就是说，对人类语言中庞大的常识和背景知识的建模，这是个看起来离题较远，但是在任何领域都绕不开的事儿。可是，对整个人类语言建模，这事儿挑战太大，多年以来没啥进展。

直到五年前的BERT大模型横空出世，这事儿才在工程上有了眉目：用海量语料和令人咋舌的参数规模，学习语言中的常识和背景知识，终于在ChatGPT上结出了硕果。它似乎突然就具备了一个九年制义务教育毕业生的思维水准，让业内外的所有人震惊。于是，各界有识之士纷纷惊呼：通用人工智能来了！图灵测试已经翻篇了！

然而从应用的角度，经过了这几个月的实践与沉淀，客观地讲：大模型还远没到达万能的程度，虽然他如同一个百科全书式的知识竞赛选手，但是在具体的某个领域中，往往在准确性和深入性上，还差那么一口气。

这就引出了周枫说的两个问题：知识竞赛型选手要成为领域专家，还有哪些工作要做？以专家为目标的选手，是不是可以不在所有领域上平均用力，从而降低学习和服务成本？

而有道的子曰，就是在这种探索精神下诞生的一种有趣的大模型，也是对我们今天讨论的话题最好的示例，它有些什么新思路呢？

场景拉动的领域大模型

有道子曰的思路，我把它成为“场景拉动的领域大模型”。提炼一下周枫思路的话，有三个关键词：应用场景拉动、大模型方法、行业数据加强。

既然说场景拉动，咱们先说说有道的大模型会首先在哪些领域落地。周枫说，有道目前主要关注以下六个场景：口语教练、作文与阅读教练、各科习题答疑、编程学习答疑、对话助手、知识工作助手。显然，这些都属于有道耕耘多年的教育领域。

咱们就先展开聊聊口语教练这个场景，由AI代替人跟学生做半开放式的聊天。这既是子曰大模型首先产品落地之处，也是普遍认为大模型擅长的应用。这个场景的技术成熟以后，可以实现个性化的英语口语教学，极大地缓解教学资源不足的问题，打造一个AI版的VIPKID。其实，仔细看看的话，上面说的六个场景，也都是围绕着“个性化教学”，也就是“因材施教”这个主题展开的，而为了致敬因材施教理念的提出和践行者，大成至圣先师孔子，有道的大模型才以“子曰”为名。

在口语教练这个应用上的最后一公里，工作也不少。显性的比如语音识别和语音合成的接入，在词典笔等硬件设备上的落地；隐型的则需要更多积累：因为口语陪练不完全是随意聊天，而是要在此过程中围绕教学目标，嵌入一定的主题和知识点，这需要在英语教学行业中的知识和方法沉淀。

有道以往在教育领域的长期技术投入，在这一点上派上了很大的用场。我随便举个例子：词典笔有时候要在非联网的场景下使用，这就意味着端上的模型算力要足够强。而有道新款的词典笔，模型大小增大了15倍，错误率下降60+%，识别速度却提升了50%。

另外，2017年Transformer诞生以来，有道底层的NMT、OCR、ASR等AI能力已经统一在了Transformer模型之下，这为本次的子曰大模型打下了一定的基础。

在教育的六大应用场景中，开展大模型的构建，就是有道子曰大模型“场景拉动”的含义。也就是说子曰大模型，会以具体应用的实际效果为目标来优化，而不是上来就追求通用大模型那种无不知、百行通的能力。显然，聚焦领域，有可能让解决问题的成本降低，同时，实用化也必然要求成本降低，否则就还是难以落地。

当然，这并不意味着回到过去的垂直领域建模！实际上，子曰的底层仍然是最新的标准大模型方法，这才能说是螺旋式上升，而非穿新鞋走老路。只不过，在子曰中，对大模型作用的期望发生了一些微妙的变化。

通用的跨领域大模型，有两个核心作用：一是“把话说顺”，也就是掌握语言的基本规律和逻辑，理解和生成内容时能做到尽可能流畅；二是“把事搞清”，也就是理解和回答中的知识性、事实性内容要尽可能准确。关于这两个目的，研究者们有过半定量的评估：“把话说顺”所需要的语料规模，要比“把事搞清”小一个数量级甚至更多。

于是，这里的技术机会就浮现出来了：如果把对大模型的要求调整一下，让他做到“把话说顺”的同时，只在某个领域里“把事搞清”，是有可能事半功倍地解决这个领域里的实际问题的！这也就是有道在大模型时代的基本思路。

那么，怎么样在某个领域里“把事搞清”呢？那恰恰是场景带来的价值！由于模型在实际场景中落地，通过该场景提供的行业数据和用户反馈，是可以用比较小的投入，获得较好的领域效果的！

还是打个比方，按照这个办法学习出来的大模型，好比有点“偏科”的尖子生：语文数学能及格，跟正常人交流都没问题，但是他在这些科目上花时间不多，而是把主要精力放在了英语上，成了在英语科目上由一技之长的人才。显然，这要比每门课都平均用力，门门都要拿一百分不可要容易不少。

方向是如此，那么子曰沿着这个思路进展到什么程度了呢？听有道的朋友说，很快将要上线的口语教学大模型，参数规模相当精简。更重要的是，实际设备上的内测单次推理成本，也只有通用大模型的十分之一以下，这才能在实际应用中广泛采用。

除了口语教学，大家如果想体验一下子曰的话，可以关注一下有道最近上线的AI BOX功能，它可以提供句子润色、语法纠错、写作建议、重点提炼等作文与阅读教练功能。因为AI BOX和有道翻译的会员是关联的，所以上线才几个星期，有道桌面端四分之一的会员收入都来自于AI BOX了，可见用户对它的接受程度。

那么，在场景拉动的领域大模型和通用大模型之间，有道的长期战略会做何种抉择呢？听周枫的意思，这两条道路并不矛盾：在确定的专用领域应用中，完全可以通过行业数据加强的方法，打造低推理成本的模型，加速模型的落地；而随着有闭环应用数据的行业越来越多，模型就可以越来越“多才多艺”，逐渐向通用的大模型演进，当然，其推理成本也会相应提升，落地的难度也会加大。

@-@

以ChatGPT为代表的大模型的横空出世，展现出令人惊叹的强大跨领域智能，也让AI相关行业的技术发展都切换到新的范式上。不过同时，他也将一个现实的问题摆在了面前：在本来就非常垂直的应用场景中，如何快速、敏捷地将大模型技术，用可控的成本落地呢？

为了解决这个问题，大家各显神通。不过不论是Facebook的LLaMA，陈天奇等人的手机上大模型方案，都是在问题不变的情况下，探索简化模型的通用技术方案。然而从实用的角度看，确实在有些场景下，大模型不一定要门门百分，而是可以偏科的。于是，以有道为代表的场景拉动的领域大模型的思路，也就应运而生了。

经过有道的探索，通过在垂直领域内打造实际的闭环应用反馈，同时利用大模型架构基本语言常识的能力，打造出成本可控、效果超群的垂直模型，是相当可行的一条新路。这条路如果走得顺利，将大大助力大模型的加速迭代和应用落地。

加入星球，探讨用户增长与变现专业话题

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章