架构师要了解大模型的不足:科大讯飞AI研究院副院长聊GPT
在前一段时间的 ArchSummit 架构师峰会的直播中,科大讯飞研究院的李鑫老师分享了一些关他对于大模型的理解,和使用上的心得。这里根据直播内容,列出了李鑫老师的一些观点,希望对关注大模型的读者有帮助。
在 ChatGPT 问世之后,科大讯飞也快马加鞭分析并研究大模型的技术,并且让各个业务部门、各个事业部对 ChatGPT 为代表的认知大模型有比较充分的认识。
在目前阶段,每天都在和 ChatGPT 打交道,在跨领域学习这件事上,ChatGPT 确实帮了很大的忙。做软件开发的很多底层技术还是需要和硬件交互的,所以在信息茧房的时代,在跨知识维度的学习上,快速去获取另外一个领域的知识这件事上,可以通过大模型来做归纳,这是相当重要的部分。
GPT 给传统软件带来的变化,总结为四个字:查漏补缺。一是查漏,二是补缺。查漏是指,例如代码质量评估,可以利用 GPT 来查找里面的漏洞,它能察觉到人看不到的问题,有点类似于初级的 QA 工作。补缺是指类似 Copilot 的角色,能够生成下一行代码,节省人力时间,帮程序员去补全一个函数、一个模块、一个语句。这两点是相对来说比较实用的,能够提升工作效率和工作质量。
与企业应用的相结合,其实每个企业现状不太一样,如果企业里用的都是偏垂直领域的小模型,可能会结合 GPT 做一个原地升级,把不同领域的小模型都贯穿起来,以后一个模型就能解决大多数问题。
和企业应用相结合的场景,还是需要发挥想象力的,这里分三个层次来说。
以前“想都不敢想”的应用场景,需要开脑洞、头脑风暴才能去解决的问题,现在可以基于 GPT 去测试一下。
第二个层次是“敢想,但以前实现不了”的,或者实现起来很难的,比如把开会过程中的口水文章做一个 summary,但是实际上以前的模型在语言理解、语料处理上处理是比较复杂的,实现起来非常痛苦和复杂,其中还有很多的工程性工作、和产品相结合的事。
第三层次是“以前能干,有技术可达性,但达不到预期”的。现在有了大模型之后,实现效果和实现能力有了质的提升。
在软件研发过程中,结合大模型来做能实现降本增效。比如技术平台类部门的研发,就像上面说的查漏补缺,代码生成缺陷。其次是,研发人员在做技术调研,特别是新技术调研的时候,可以用大模型和 GPT 的方式来做,快速去实现和跑起来,能节约比较多的时间。
对于测试人员来讲,一些测试方案,包括测试用例的设计,可以用这种大模型的方式来做。大模型其实比较擅长做那些考虑比较全面的、结构化的、有一定固定制式的文本生产。对于自动化测试来说,需要根据不同的场景来使用,有些测试并不能一次性就能完全执行成功。
对于性能测试,包括一些测试工具的开发,像 Python、Java 写的工具成熟度会高一些。像 APK 静态自检的监测工具,还有一些测试用例的生成工具,对于测试人员来讲在降本增效上是有意义和价值的。
除了研发、测试、运维这样一些角色,其实还有一个不能忽视的重要角色,那就是产品经理。在这个软件工程当中,产品经理的很多的跟研发直接相关的用户故事的评估,或者用户需求测试等工作,完全可以用大模型来辅助。业务部门更聚焦于产品在需求设计,和技术对接的过程中,如何去和大模型结合起来,快速去实现一个框架在上面查漏补缺,这样效率更高。
到底什么才是大语言模型?学术领域有一些研究,大模型要产生智慧涌现的效果,参数量至少在百亿级才能力出现一个阶跃和拐点。我们通常所说的大语言模型,更多的是做一些 Pretrain 的模型,然后基于一些我们已有的数据,做一些 Fine Tuning,或者是做一些 SFT(有监督微调),也许可以满足实用需求。
对于不同阶段和体量的企业来讲,在大语言模型的研究上可能分三个阶段:
第一个阶段:自己训。可能企业自己有一些算法和数据的积累,从随机初始化开始训练这个模型,通常这是“有钱、有闲”的阶段。
第二个阶段,利用开源模型做推理,通过微调来提高推理效率,以满足自己的实用需求。
第三个阶段,自己用。对于模型没有什么高的追求,用开源的,或者是第三方已经集成的比较好的明星产品,仅仅是当成一个工具来使用。
现在大家都在说大模型的好处,作为架构师需要去了解大模型的不足。总结归纳上来讲,大模型在时空这两个维度上有一些不足,这反而需要加入架构师的能力。
首先是空间上的不足,复旦大学彭鑫教授讲过一个观点,说大模型生成的很多代码实际上只是平面能力。但是软件开发中实际上很多复杂的工程,规划性、设计模式等等,大模型在理解上是不够的,特别对于大型的软件工程,它的架构能力也是不足的。架构能力实际上就是把任务做分解的能力,是一种自顶向下,有点像树状结构的拆分能力。实际上大模型可以在某一个叶子节点或者是某一块能够给你平面的生成代码,但是这种纵深的规划能力是不足的。这其实是架构师应该去补齐的。
其次是时间上的不足,就是大模型在生成一段比较长的工程或者大段代码的时候,它对上下文的记忆,当它的 Token 数不足的时候,实际上它是没办法记住上面自己生成过的内容。甚至有的时候一些变量名都会有比较典型和很明显的错误,它对过去的记忆是比较弱的。
对于未来的大型项目的维护,其实需要我们人工去干预的。当我们了解了大模型在空间时间上的不足的时候,很自然可以推导出架构师或者说技术人员能够在哪些方面去弥补大模型的这个缺憾,这样才能人机耦合、人机共舞去做有价值有效率的事情。
GPT 时代架构师的机遇和挑战有哪些?第一是帮自己思考;第二个是帮团队和伙伴,甚至周边的人去思考;第三个是帮老板思考。
帮自己思考。既然大模型在空间和时间上存在不足,那架构师如何分步骤引导大模型完成它擅长的事情。这里就要提到提示工程(Prompt Engineering)了,架构师如果希望用好这个工具,学会提问是很重要的一环,去引导机器发挥它擅长的能力。
帮团队思考。架构师在有些公司充当着技术引领者的角色,在其他人还没有意识到的前提下,架构师要去赋能别人,做一些布道的事,让别人在意识上知道大模型确实很重要,未来属于掌握了 AI 的人。
帮老板思考。企业本质上是要经营的,要长期生存发展下去。架构师要具备经营思维,精简团队,实现降本增效的目的,增强每个单位时间里的工作密度,可能大模型这样的工具能够帮助我们做到。
7 月 21-22 日,我会在 ArchSummit(深圳站)架构师峰会上分享科大讯飞利用大模型在音频创作、视觉创作或者文本创作上的技术进展及应用成果,其实就是通常讲的三个模态:图、文、音。图文视觉方面,会介绍虚拟人场景的研究,尤其是虚拟人的肢体的动作、口唇怎么与文本能够耦合等等。
除此之外还会介绍视觉创作中的微表情细节等技术内容,以及通过提供一段文字实现 Text to Speech,生成偏情感、带有个人风格的音频。现场演讲里我还会分享很多有意思的使用场景案例。
扫码或点击「阅读原文」,查看专题详情。
微信扫码关注该文公众号作者