“驯服”不受控的大模型，要搞定哪些事？| 专访达观数据副总裁王文广

2024-05-09 06:05

采访嘉宾｜王文广，达观数据副总裁

作者 | 华卫

GPT 爆火一年多后，无论在国内、外，“几乎所有领域都需要用大模型重构”的论调已深入人心。中国 200 多家厂商掀起的“百模大战”、层出不穷的千亿和万亿大参数模型、性能效果与应用方向的飞速迭代，无一不在表明大模型被各行各业拥抱的热潮力度。但在更多行业对大模型跃跃欲试之际，也有许多现实的落地问题浮现出来，可控性问题就是其中之一。

在即将召开的 AICon 全球人工智能开发与应用大会暨大模型应用生态展上，InfoQ 邀请到了达观数据副总裁王文广做演讲分享，他将从大模型相关技术和幻觉问题为切入点，探讨如何利用知识图谱、RAG 和大模型融合的技术路线提高大模型的可解释性、可操作性和可控性。会前，InfoQ 对王文广老师进行了专访，听他先聊一聊大模型的不可控之处和对技术路径的应用判断。

以下为访谈实录，经编辑。

大模型“不受控”在哪？

InfoQ：说到可控性问题，现在大模型在哪些方面的输出是“不受控”的？

王文广：大模型输出的内容是根据用户输入的 prompt 去生成的，是由模型本身能力来决定的，如果要从细节上来控制模型的输出是不可能的。也就是说，大模型本质上是不可控的。实际应用来讲，大模型的不可控可以从两方面来讲：一是输出的内容与用户预期一致就是是可信的，跟预期不一致就是所谓的幻觉；二是可控性在使用时未必一定是需要的，比如说写小说写剧本等，即使天马行空也没什么大问题。

另外对中国的用户来讲，还有些场景下，可控性是要求很高的。比如有时候会要求必须一字不差地按照给定的内容输出时。但可控性与幻觉又是不同的概念，幻觉是跟事实不符，可控性则是跟预期是否一致。

InfoQ：可控性问题是大模型目前落地的最大阻碍吗？业内现有的大模型产品达到什么样的效果？

王文广：不能完全说是障碍，要分场景的，只是在部分可控性要求高的场景下是障碍，比如制造业、金融领域的应用等。也就是说，对输出结果的精确度要求越高，可控性的影响越大。

我认为大模型追求的目标并非可控性，而是模型自身的能力。它的智能化水平与可控性并没有很强的关联，越强的大模型，未必可控性一定做得越好，但可控性可以用别的方法去做。

InfoQ：从安全和合规层面来说，整个行业如何能够共同推动大模型的可控？

王文广：这个主要还是要由大模型的提供商来解决这个问题，要保证输出的内容适应各地的法规、习惯、隐私和道德要求。

主流的三种应对方式

InfoQ：要解决可控性问题，需要在大模型的哪些方面努力？

王文广：这个有比较多的方法，大家用的最多的是 RAG（检索增强生成）技术，把需要的东西检索出来，然后通过提示词的方法输入到模型里。还有的会采用分析神经网络里的激活链路的方式，这个比较难且成本非常高，所以可能真正用得不太多。

InfoQ：目前行业内在可控性问题的解决上，普遍采用哪些方式？

王文广：普遍用的就是 RAG ，特别是在应用里，但 RAG 本身也会有几方面的细分内容。一是搜索引擎，用这一方法去找到答案的大致范围，然后再通过提示词输入到大模型里，让它给出答案；二是向量数据库，用向量的方法去检索内容，但相比搜索引擎来讲，其可能也存在检索效率和精度等问题。因为搜索引擎起点蛮高的，要做好一个搜索引擎并不容易。

另外就是在产业用得比较多的知识图谱，它的好处对业务有很多预定义的结构，能够更方便地找到精确答案，然后再利用大模型把答案生成一段合理文本来回答。

主流来讲就是这三种方法：搜索引擎检索、向量检索和知识图谱增强。应用来说，偏通用的领域前两者比较多，在专业领域知识图谱更好一些。

InfoQ：知识图谱能为大模型可控带来多大的提升？在曹植大模型上的运用效果如何？

王文广：知识图谱和大模型是一个互补的关系。从原理上来讲，大模型本质上我们称之为归纳推理的结果，而知识图谱更多是演绎推理；从实用角度来讲的话，大模型是概率输出，无法精确控制，同时即使出错也无法进行编辑，知识图谱恰好能做修改的事，可以在里面写确定性的逻辑。

知识图谱的劣势是构建成本高、有很多结构化的成本、逻辑推理要求能够理解业务，而这正是大模型所擅长的，比如说可以用大模型去做知识图谱的构建、语言的理解。两者的结合，刚好可以实现一个高度智能化且能够落地应用的系统。知识图谱和曹植大模型融合在效果上是非常好的，被金融、制造、能源等广泛的行业客户所接受。

InfoQ：RAG 能为大模型可控带来多大的提升？在曹植大模型上的运用效果如何？

王文广：最大的提升方向是，用这一方法去提升大模型，相当于把开放性的题目变成选择题。在曹植大模型的落地中，大量采用了与知识图谱融合的方法。

InfoQ：对于 RAG 本身的局限之处，在大模型可控的应用实践中如何避免？

王文广：要做大模型落地，RAG 技术是不可避免会遇到的，用别的技术方法只会更难或者效果达不到预期。具体的局限之处要看方法，RAG 的三个方向各自都有其难点所在。

搜索引擎的局限在于复杂性，搜索引擎是一个庞大的复杂系统；向量检索乍一看非常简单，但可控性非常差，遇到问题没法去更改，在落地的时候往往会发现，细节是魔鬼，越到后面越没法用；知识图谱和搜索引擎一样是很复杂的知识体系，学习起来都很复杂，而且一个知识图谱往往是针对不同的业务去做的，很难构建起全面的知识图谱。

我们现在的做法，是在一个系统里把这三种方法都用起来，每一种方法都有弱点，那就用别的方法去补充。如果只会其中一种方法，顶多就 60 分吧，其实挺难做好的。

单靠大模型，永远达不到预期

InfoQ：大模型与知识图谱之间有不少重叠的应用能力，二者会相互替代吗？

王文广：我觉得它们永远不会相互替代。举例来说，人类已经很聪明了，但需要精确的专业知识时还是需要去查百科全书。对大模型来讲也是一样的，它也不可能记住所有东西，特别是专业领域的知识，所以我经常说，知识图谱是大模型的百科全书；并且，大模型也需要更新，越大的模型更新越慢，训练也需要时间。

因此，大模型总需要某种方法来补充信息，知识库就是一个很好的选择。书籍是人类进步的阶梯，知识图谱就是大模型（人工智能）进步的阶梯，哈哈。

InfoQ：大模型是否能反哺知识图谱的构建与发展？基于大模型的知识图谱能统一吗？

王文广：最直接的影响是，现在有了大模型以后，知识图谱的一些研究方向已经不再做了，比如问答。因为大模型在这些方面做得挺好，互相组合去做就可以了。随之带来的影响就是，大家可以有更多精力做知识图谱的其他方向，比如说推理，这可能也是未来知识图谱会融合大模型去做的一个研究方向。

InfoQ：现阶段以及将来有哪些技术可以助力提高大模型的可控性？

王文广：目前来讲我觉得主要就是刚刚提到的三个方法，还有就是大模型本身能力的增强，比如训练一个针对特有领域的技术，可用但成本比较高，而且在语言模型里面好像大家做得不太多，可能还是效果没那么好。

InfoQ：您认为大模型在可控性上达到业界和大众的普遍认可，还需要多长时间？

王文广：我觉得单靠大模型很难的，也许永远都达不到大家的预期，必须结合前面说的这几种方法。因为大模型再牛，如果语料里没有相关内容（比如刚刚发生的事情），肯定是答不好的。举一个例子，现在（2024 年 5 月 8 日）问不带检索增强的大模型有关嫦娥六号的内容，肯定全是一本正经胡说八道。

InfoQ：在即将到来的 AI Con 上，您准备向听众分享哪些方面的内容？

王文广：我主要会讲两部分，也是大家比较关心的方面。一是具体怎么去解决可控性，我们会主要把搜索引擎、知识图谱和向量数据库组合在一起；二是我们实际在做的案例，因为现在大模型最大的问题就是怎么落地。

嘉宾介绍

王文广，现担任达观数据副总裁，高级工程师职称，浦东新区“明珠计划”菁英人才，曾获得广东省科技进步奖二等奖，上海市计算机学会科技进步奖二等奖和上海市浦东新区科技进步奖二等奖。人工智能标准编制专家，《知识图谱：认知智能理论与实战》作者，参与编撰《智能文本处理实战》，《新程序员 * 人工智能新十年》顾问专家和文章作者，专注于知识图谱、通用人工智能 AGI、大模型、AI 大工程、NLP、认知智能、强化学习、深度学习等人工智能方向。

内容推荐

探索智能科技的新边疆，《2024 年第 1 季度中国大模型季度监测报告》正式发布！OpenAI Sora 大模型和 NVIDIA Project GR00T 的发布、人形机器人的突破以及编码智能体的到来，正开启 AI 大模型的新纪元。在开源与闭源并行的新趋势中，AIGC 写作和 PPT 制作工具的测评展示了 AI 在内容创作和视觉呈现上的巨大潜力。InfoQ 研究中心邀您一同见证 AI 浪潮如何塑造未来🚀。欢迎大家扫码关注「AI 前线」公众号，回复「季度报告」领取。