追一科技 CEO 吴悦：大模型落地，场景、成本及效果，缺一不可

2023-11-23 11:11

大模型是很重要的变量，但不是唯一。

作者丨何思思

编辑丨陈彩娴

“下一个发展趋势应该是NLP对话。”2016年吴悦从腾讯离开时如是说，而这也成为了他离职后创业的首选方向。

2006年，从中科大硕士毕业后的吴悦便加入了腾讯。2006年到2011年，在腾讯主要做存储系统研发方面，2011年到2016年专攻搜索技术。

对于为何一开始聚焦在NLP领域进行创业。追一科技创始人兼CEO吴悦解释道：“在腾讯既做过基础架构，又做过搜索推荐，当时我们就觉得NLP技术的商业价值非常大。搜索方面，孵化出了Google、百度等大公司，其实这些公司都属于 NLP 时代比较典型的搜索应用。推荐方面，孵化出了头条等，在这个基础上，我们判定下一个方向应该是NLP对话。”

就这样，创办追一科技之后，吴悦便主攻NLP和深度学习方向，并相继推出对话与分析AI应用平台及AIForce数字员工产品族。其中，AIForce数字员工产品族就是处理营销、服务、运营等场景任务的智能机器人，也是追一的主要产品矩阵，其包括智能在线机器人Bot、智能语音机器人Call、智能助理机器人Pal、多模态数字人Face等。

在当时来看，这一系列产品的研发并非一件易事。所以自成立之初，追一就特别注重新技术的应用，对此，吴悦也特别强调道，2017年 Transformer 架构，以及2018年提出的Bert架构，我们都做了相关研究。比如围绕 Transformer 提出了 RoPE旋转位置编码技术。被Google、Meta、阿里、百川智能等国内外大模型厂商广泛采用。

当谈到2022年底爆火的生成式大模型时，吴悦深刻地感知到了原有的技术架构已不能顺应市场的变化，以及客户的需求，所以在今年年初，追一科技便尝试在大模型技术的基础上做研究，推出了博文领域大模型，并基于大模型的能力，对现有的软件产品进行重塑。

在大模型热潮中，追一没有选择通用大模型赛道，而是选择了领域大模型。究其原因，吴悦告诉AI科技评论，大模型的演进方向主要有两个分支：

一是沿着通用大模型的方向发展，需要不断打开大模型能力的天花板。比如 OpenAI 或者国内的一些大模型厂商是沿着这个方向发展的。

另一个分支是，围绕企业具体的业务场景的需求，定制化一个企业大模型。追一科技在今年年初推出的博文领域大模型属于第二个分支，就是面向企业的具体业务，比如营销、客服等场景，为企业定制一个专有大模型。

但是从目前来看，无论是通用模型还是领域模型，其挑战都非常大。通用大模型的难度主要是规模化的难度，包括参数量上规模、数据上规模和算力上规模带来的难度。而领域模型考验的则是直击客户业务痛点以及洞察客户需求的能力，但是由于业务整个链条比较长，所以这是一个非常大的挑战。

对此，吴悦表示认同，同时他也表示，大模型竞赛比拼的是综合实力，从客户的角度出发，他们在关注技术变化的同时，也会关注安全合规、成本等因素。而企业想要在这场科技革命中杀出重围，则需要具备核心技术能力，产品化的能力，专业服务的能力，各种业务咨询的能力。

“从技术角度看，大模型确实是一个比较重要的变量，但它不是唯一的变量。”吴悦补充道。

以下是AI科技评论和吴悦的对话：

混沌之时，GPT掀起AI新范式

AI科技评论：为什么选择从腾讯出来，自己创业？

吴悦：2006年，从中科大硕士毕业后就进入了腾讯。2006年到2011年，在腾讯主要做存储系统研发方面，2011年到2016年专攻搜索技术。

2016年选择出来创业，主要因为既做过基础架构，又做过搜索推荐等，当时我们就觉得NLP技术的商业价值非常大。搜索的话孵化出了Google、百度这样的大公司，其实这些公司都属于 NLP 时代比较典型的搜索应用。推荐的话，孵化出了头条等，在这个基础上，我们就判定下一个方向应该是对话，所以2016年出来创业时就做了对话机器人，主攻NLP方向。

AI科技评论：从NLP到深度学习再到大模型，您怎么看待三者的关系？

吴悦：有些概念需要重新厘定一下，NLP 属于自然语言处理，它是人工智能三大方向之一，也是最难的方向。深度学习是神经网络，属于人工智能的一个方法论。人工智能最早解决的是视觉、语音和 NLP 的问题。

大模型是沿着神经网络这个方向不断发展的，2012年2013年是深度学习的一个突破，2016 年 AlphaGo 出来，是强化学习的突破，2022 年底到2023 年，包括 ChatGPT 其实属于生成式大模型的突破，这些其实都属于神经网络的一个技术分支的不断发展的过程。

AI科技评论：在不同的技术节点，追一都做了什么？

吴悦：从公司成立到今天，有三个比较重要的时间节点。

第一个时间节点：2016 年创业时，我们把深度学习技术应用到对话机器人。因为之前的对话机器人大多是通过搜索或者一些规则的方式实现。当时我们就是先于其他公司，率先把深度学习技术应用到对话机器人中。这是第一个里程碑。

第二个时间节点：2017年提出的transformer架构，2018年提出的Bert架构，这些都属于大模型技术爆发前夜的阶段，当时我们就围绕transformer、Bert的架构，做了相关研究。比如围绕transformer 提出了 RoPE旋转位置编码技术。当时被Google、Meta、阿里、百川智能等国内外大模型厂商广泛采用。这是我们原创式的创新，也是作为一家AI创业公司为生成式大模型做得一个小贡献。当然在这个阶段，围绕Bert我们也研发出了ZOne大模型。

第三个时间节点：2022年年底GPT爆发后，我们推出了博文领域大模型，专注服务和营销领域。我们围绕四个理念打造博文领域大模型：贴合业务、合规可控、更具温度、普惠实用。

AI科技评论：ZOne模型和现在的模型概念有什么不同？

吴悦：ZOne主要是基于Bert路径，其属于表征式大模型的分支。其实大模型本质上是模型参数很大，基本上都是 10 亿起步，沿着这个方向衍生出了两个方向，一个是表征式大模型，典型的就是Bert。另一个就是生成式大模型，典型的就是Open AI的GPT路径。

AI科技评论：从早期的技术，到现在的GPT，中间在技术的选择上有什么挑战吗？

吴悦：2018年，这个时间节点其实是有点混沌的，当时就面临着到底是沿着表征式的方向走，还是生成式的方向走？其实都是不明确的，当时大家也都在探索阶段。直到2022年年底，2023年年初ChatGPT出来之后，大家感知到可能生成式更具有发展潜力，所以这个阶段大家都选择全面拥抱生成式大模型。当然表征式大模型在真正商业化落地过程中还是非常有作用的，所以这个方向我们也在延续做。

开源&闭源之争，

开放式服务越来越多

AI科技评论：追一很早就开始做大模型研究了，当时主要是怎么考虑的？

吴悦：我们在确定做之前，背后是有一个逻辑支撑的。大模型出现后，它的应用方向或者它的发展方向，是有两个分支的。一是沿着通用大模型的方向发展，面向的是一些通用型的需求，比如终端用户的需求，这个过程需要不断打开大模型能力的天花板。典型的比如 OpenAI 或者国内的一些大模型厂商是沿着这个方向发展的。

另一个分支是，我们认为是围绕企业的需求，或者围绕着企业业务的具体场景的需求，定制化一个企业大模型。所以我们在今年年初推出的博文领域大模型属于第二个分支，也就是我们选择面向企业的具体业务，比如客服、营销等场景，为企业定制一个垂直领域大模型。

AI科技评论：所以可以理解为追一走的领域模型的路径，自研还是基于开源做微调？

吴悦：博文领域大模型的研发也是阶段性的。我们现在的方向是两条路并行走，因为我们的出发点是构建一个一体化的可落地的大模型。

从落地的角度来看，有两个选择，一是围绕着开源模型，在上面做知识注入，能力增强等。另外一个逻辑就是从底层向上构建一个一体化的大模型。

从当前阶段来看，第一个阶段落地会更快一些，第二个阶段要慢一些，因为完全自研，会涉及到投入，风险等问题，所以我们还是比较谨慎地看待这件事儿。（更多关于大模型行业的相关话题，欢迎添加微信 ericahss1224，互相交流，互通有无）

AI科技评论：在选择开源模型时，是并行都在用还是选一家?

吴悦：我们是并行都在用，重点在于知识注入层面，能力强化层面，需要做比较多专业性的工作。这样才能够把大模型的能力充分挖掘出来。

AI科技评论：您认为开源会不会成为主流模式？或者大部分企业其实更期待更多开源大模型的出现？

吴悦：我觉得沿着企业级方向，可能会越来越开放，沿着通用人工方向，可能还是会坚持闭源。

现在大家都在说开源模型，我觉得下一步的方向不仅仅是开源模型越来越多，可能会有更多开放式的服务出现，比如数据开源、算法开源、甚至很多基层框架都是可以开源的。

AI科技评论：通过半年多的实践，您认为做大模型的难点是什么？

吴悦：从客户的角度出发，以我们自身为例，我们服务的是中大型客户，这类企业往往会有两方面的考量：一是技术层面，二是业务层面。

从技术层面来看，中大型企业对大模型技术和产品的要求往往是非常严格的。比如安全方面，他们希望整体的数据是安全的，整体的对外提供的服务是合规的，另外还要保证大模型的输入输出是完全可控的。

从业务层面来看，真正要把大模型技术在客户的业务场景中做落地的话，其实是需要构建一个闭环的，他们要求的不仅是技术的能力，还包括如何把技术产品化，产品化完之后还需要做实施交付，这也会涉及到后续持续维护等专业服务，最重要的是，还要足够了解业务的需求，以及需求的洞察能力，这些能力其实都是非常重要的。（更多关于大模型行业的相关话题，欢迎添加微信 ericahss1224，互相交流，互通有无）

大模型落地，

场景、成本及效果，缺一不可

AI科技评论：基于大模型的能力，追一的产品已经实现重塑了吗？

吴悦：正在逐步完成重塑中，要想全面落地到客户业务场景中去使用，明年年初能实现。我们现有的6款机器人产品已经是非常成熟的商业化产品，从2016年到现在已经服务了几百家头部客户，现在我们在尝试把大模型的能力融入到这6款产品中，贴合客户业务去做产品重塑，或者通过洞察客户业务的方式，通过大模型解决过去的产品没有解决的问题。

AI科技评论：从今年年初就开始做，为什么明年才能全面落地？

吴悦：要给客户做逐步推进，因为把大模型的能力加进来，大模型本身是有幻觉、黑盒或者一些其他不可控的表现，那就需要我们通过训练，自己做一个领域的强模型，帮客户避免这样的问题。

对于客户来说，过去的产品已经和他们的业务系统，做了比较深的绑定，一个大客户，每天的访问量能达到几百万甚至上千万，在大模型这个大的技术变革面前，他们是非常谨慎的。对于他们来说，业务的稳定是第一位的。所以还需要一个逐步灰度引入或者迁移的过程。

对于我们来说，首先我们要把顶层设计考虑清楚。就是到底应该怎么植入大模型，短、中、长期的规划是什么样的？时间计划是什么样的？规划性的工作其实我们已经做了大半年，基本做完了，接下来就是落地到客户业务场景中开展使用的工作。

AI科技评论：虽然落地难，但说服客户的成本是不是比以前低了？毕竟大家都知道大模型是能解决一些问题的。

吴悦：在这个过程中，我们说服客户是要分几个阶段的。第一个阶段，是让感兴趣的人愿意跟你聊这个话题。ChatGPT爆火，经过一些科普，我觉得只要是有大模型想法的客户，他就愿意跟你聊。所以第一阶段算是破冰了。

但是跟客户进一步聊的时候，他会问你的这套产品到底能给我带来什么？结合我的业务，到底能够帮我解决什么问题？和我现有的 AI 系统相比，到底能够带来多大收益？需要增加多少成本？这个问题我觉得是比较核心和关键的，所以这也是我们刚刚讲的点，就我们要去做调研，要做技术边界的定义，要做合理的计划，现在大多是在这个阶段。

AI科技评论：您怎么理解重塑？重塑是不是意味着要替换掉原来的底层架构？

吴悦：大模型是一项新技术，确实能够解决一些之前的技术所不能解决的问题。比如一句话多意图的问题，但是我们要进行大模型落地的话，其实也会引入一些新的问题，比如幻觉问题，可控生成问题，成本问题等，这些都是我们需要重点考虑的。好比电动车的技术虽然好，但大家都还会有里程的焦虑。

对于生成式大模型来说，我们觉得有两个焦虑，一是幻觉的焦虑，二是算力（成本）的焦虑。在这个技术体系里面，其实我们需要根据对客户需求的理解，以及对整个技术的设计选择合适的路径，看哪些问题适合用传统系统解决。哪一些适合用生成式大模型解决。

我们针对客户普遍关注的大模型的成本问题，提出了“增程”技术理念，具体来说，就是通过大小模型协同，共同支持客户需求，通过一个“增程器”组件，根据用户或者实际处理任务的不同，来做动态配置和组合，让大模型出现在最应该出现的地方，提升模型效果的同时，实现了性价比最大化。

AI科技评论：那对于客户关心的问题，怎么解决？毕竟还是逃不掉快速落地的问题？

吴悦：第一，比较重要的是要解决本地化部署的问题，所以博文领域大模型是要做本地化部署的，类似公有云和私有云的区别。

第二，解决成本的问题，因为我们开发的产品，在一些中大型企业中已经有了比较广泛和深入的应用。就像前面所说，如果全面换成大模型的访问，规模可能会从之前的上百万到上千万，成本是非常高的。

第三，到底能给客户带来多大的收益？这就需要对企业的业务有比较深入的洞察，能挖掘到业务的痛点，然后再提出一个既可以本地化部署，又成本可控的解决方案。这是我们发现或者所看到的一些点。

AI科技评论：在落地过程中，有没有自己的一套方法论？

吴悦：首先，之前的产品其实是广泛解决客户的问题，但在落地过程中，我们也发现这些产品和技术是存在一些短板。这些问题是不是就可以通过大模型解决？这是我们做大模型落地的一个重要抓手，因为我们知道大模型的能力边界。

然后，我们已经有了这样的产品落地，所以跟客户，特别是头部客户形成了一个很好的联动。在这个过程中，结合追一对大模型的理解和认知，加上和头部客户共同挖掘，哪些是之前我们没做到过的，没有提供过的服务，这时，我们会重点看能不能通过大模型能不能延展到一些新的场景，这是目前我们做大模型落地的方法。

跨越大模型发展平缓期，

靠的是深入业务

AI科技评论：现在大模型进入到平缓期，您怎么看？

吴悦：大模型现在有两个发展方向，一是通用大模型，沿着通用的需求，沿着通用 AI 的方向发展；二是围绕着具体的应用场景出发，比如围绕企业某个场景做AI应用落地。目前，大模型技术确实已经到了应用阶段。所以大家都在关注怎么把这个技术去做落地了。

AI科技评论：现在国内做大模型的企业有三类：通用模型，领域模型，AI创新应用，您认为三者的难度分别体现在哪些方面？

吴悦：首先，三者难度是不一样的。通用大模型是规模化上的难度，包括参数量上规模、数据上规模和算力上规模带来的难度。

应用层，如果是简单的AI创新应用，那么应用层相对独立，基于通用大模型，也足以满足。如果是复杂的AI创新应用，例如追一在做的服务和营销领域的软件产品，那么领域模型和应用层是很难分割的，他们之间是捆绑的迭代节奏，难度在于深入到客户的具体业务，深入了解具体场景和需求点，反推出大模型的能力需求，大模型的能力项和应用层产品功能一一对应。大模型的迭代带来产品的功能的不断丰富。

AI科技评论：如何提高竞争力，保持优势？

吴悦：竞争是一个综合方面的考量。从客户的角度看，其实客户关注的是技术如何落地，以及他们考虑的安全、合规、可控等等，当然也包括成本因素，有些客户可能也会关注，你能不能做好产品化的落地，提供相应的专业服务，然后和他们做业务的共创，所以客户是全面的考量。

从企业的角度看，我们认为做好一个企业，需要具备核心技术能力，产品化的能力，专业服务的能力，各种业务咨询的能力。目前，从技术角度看，大模型确实是一个比较重要的变量，但它不是唯一的变量。

本文作者：何思思，微信ericahss1224。长期关注国内外各企业在AIGC、大模型及应用层方面的动向，欢迎添加作者微信互相交流、互通有无。

更多内容，点击下方关注：