Redian新闻
>
架构师要了解大模型的不足:科大讯飞AI研究院副院长聊GPT

架构师要了解大模型的不足:科大讯飞AI研究院副院长聊GPT

公众号新闻

作者| 李鑫
编辑 | 薛梁

在前一段时间的 ArchSummit 架构师峰会的直播中,科大讯飞研究院的李鑫老师分享了一些关他对于大模型的理解,和使用上的心得。这里根据直播内容,列出了李鑫老师的一些观点,希望对关注大模型的读者有帮助。

在 ChatGPT 问世之后,科大讯飞也快马加鞭分析并研究大模型的技术,并且让各个业务部门、各个事业部对 ChatGPT 为代表的认知大模型有比较充分的认识。

  1. 在目前阶段,每天都在和 ChatGPT 打交道,在跨领域学习这件事上,ChatGPT 确实帮了很大的忙。做软件开发的很多底层技术还是需要和硬件交互的,所以在信息茧房的时代,在跨知识维度的学习上,快速去获取另外一个领域的知识这件事上,可以通过大模型来做归纳,这是相当重要的部分。

  2. GPT 给传统软件带来的变化,总结为四个字:查漏补缺。一是查漏,二是补缺。查漏是指,例如代码质量评估,可以利用 GPT 来查找里面的漏洞,它能察觉到人看不到的问题,有点类似于初级的 QA 工作。补缺是指类似 Copilot 的角色,能够生成下一行代码,节省人力时间,帮程序员去补全一个函数、一个模块、一个语句。这两点是相对来说比较实用的,能够提升工作效率和工作质量。

  3. 与企业应用的相结合,其实每个企业现状不太一样,如果企业里用的都是偏垂直领域的小模型,可能会结合 GPT 做一个原地升级,把不同领域的小模型都贯穿起来,以后一个模型就能解决大多数问题。

  4. 和企业应用相结合的场景,还是需要发挥想象力的,这里分三个层次来说

    • 以前“想都不敢想”的应用场景,需要开脑洞、头脑风暴才能去解决的问题,现在可以基于 GPT 去测试一下。

    • 第二个层次是“敢想,但以前实现不了”的,或者实现起来很难的,比如把开会过程中的口水文章做一个 summary,但是实际上以前的模型在语言理解、语料处理上处理是比较复杂的,实现起来非常痛苦和复杂,其中还有很多的工程性工作、和产品相结合的事。

    • 第三层次是“以前能干,有技术可达性,但达不到预期”的。现在有了大模型之后,实现效果和实现能力有了质的提升。

  5. 在软件研发过程中,结合大模型来做能实现降本增效。比如技术平台类部门的研发,就像上面说的查漏补缺,代码生成缺陷。其次是,研发人员在做技术调研,特别是新技术调研的时候,可以用大模型和 GPT 的方式来做,快速去实现和跑起来,能节约比较多的时间。

  6. 对于测试人员来讲,一些测试方案,包括测试用例的设计,可以用这种大模型的方式来做。大模型其实比较擅长做那些考虑比较全面的、结构化的、有一定固定制式的文本生产。对于自动化测试来说,需要根据不同的场景来使用,有些测试并不能一次性就能完全执行成功。

    对于性能测试,包括一些测试工具的开发,像 Python、Java 写的工具成熟度会高一些。像 APK 静态自检的监测工具,还有一些测试用例的生成工具,对于测试人员来讲在降本增效上是有意义和价值的。

  7. 除了研发、测试、运维这样一些角色,其实还有一个不能忽视的重要角色,那就是产品经理。在这个软件工程当中,产品经理的很多的跟研发直接相关的用户故事的评估,或者用户需求测试等工作,完全可以用大模型来辅助。业务部门更聚焦于产品在需求设计,和技术对接的过程中,如何去和大模型结合起来,快速去实现一个框架在上面查漏补缺,这样效率更高。

  8. 到底什么才是大语言模型?学术领域有一些研究,大模型要产生智慧涌现的效果,参数量至少在百亿级才能力出现一个阶跃和拐点。我们通常所说的大语言模型,更多的是做一些 Pretrain 的模型,然后基于一些我们已有的数据,做一些 Fine Tuning,或者是做一些 SFT(有监督微调),也许可以满足实用需求。

    对于不同阶段和体量的企业来讲,在大语言模型的研究上可能分三个阶段:

    第一个阶段:自己训。可能企业自己有一些算法和数据的积累,从随机初始化开始训练这个模型,通常这是“有钱、有闲”的阶段。

    第二个阶段,利用开源模型做推理,通过微调来提高推理效率,以满足自己的实用需求。

    第三个阶段,自己用。对于模型没有什么高的追求,用开源的,或者是第三方已经集成的比较好的明星产品,仅仅是当成一个工具来使用。

  9. 现在大家都在说大模型的好处,作为架构师需要去了解大模型的不足。总结归纳上来讲,大模型在时空这两个维度上有一些不足,这反而需要加入架构师的能力。

    首先是空间上的不足,复旦大学彭鑫教授讲过一个观点,说大模型生成的很多代码实际上只是平面能力。但是软件开发中实际上很多复杂的工程,规划性、设计模式等等,大模型在理解上是不够的,特别对于大型的软件工程,它的架构能力也是不足的。架构能力实际上就是把任务做分解的能力,是一种自顶向下,有点像树状结构的拆分能力。实际上大模型可以在某一个叶子节点或者是某一块能够给你平面的生成代码,但是这种纵深的规划能力是不足的。这其实是架构师应该去补齐的。

    其次是时间上的不足,就是大模型在生成一段比较长的工程或者大段代码的时候,它对上下文的记忆,当它的 Token 数不足的时候,实际上它是没办法记住上面自己生成过的内容。甚至有的时候一些变量名都会有比较典型和很明显的错误,它对过去的记忆是比较弱的。

    对于未来的大型项目的维护,其实需要我们人工去干预的。当我们了解了大模型在空间时间上的不足的时候,很自然可以推导出架构师或者说技术人员能够在哪些方面去弥补大模型的这个缺憾,这样才能人机耦合、人机共舞去做有价值有效率的事情。

  10. GPT 时代架构师的机遇和挑战有哪些?第一是帮自己思考;第二个是帮团队和伙伴,甚至周边的人去思考;第三个是帮老板思考

    帮自己思考。既然大模型在空间和时间上存在不足,那架构师如何分步骤引导大模型完成它擅长的事情。这里就要提到提示工程(Prompt Engineering)了,架构师如果希望用好这个工具,学会提问是很重要的一环,去引导机器发挥它擅长的能力。

    帮团队思考。架构师在有些公司充当着技术引领者的角色,在其他人还没有意识到的前提下,架构师要去赋能别人,做一些布道的事,让别人在意识上知道大模型确实很重要,未来属于掌握了 AI 的人。

    帮老板思考。企业本质上是要经营的,要长期生存发展下去。架构师要具备经营思维,精简团队,实现降本增效的目的,增强每个单位时间里的工作密度,可能大模型这样的工具能够帮助我们做到。

  11. 7 月 21-22 日,我会在 ArchSummit(深圳站)架构师峰会上分享科大讯飞利用大模型在音频创作、视觉创作或者文本创作上的技术进展及应用成果,其实就是通常讲的三个模态:图、文、音。图文视觉方面,会介绍虚拟人场景的研究,尤其是虚拟人的肢体的动作、口唇怎么与文本能够耦合等等。

除此之外还会介绍视觉创作中的微表情细节等技术内容,以及通过提供一段文字实现 Text to Speech,生成偏情感、带有个人风格的音频。现场演讲里我还会分享很多有意思的使用场景案例。

扫码或点击「阅读原文」,查看专题详情。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
科大讯飞发布星火认知大模型,预计10月底赶超ChatGPT!苹果再面临欧盟反垄断审查,公众号可带货视频号小店,科大讯飞辟谣大模型套壳GPT,许冉将出任京东CEO,这就是今天的其他大新闻!现场实测,三大能力超越ChatGPT,科大讯飞「星火」大模型如约而至近期在招岗位:avolution.ai、京东科技、智源研究院、博世亚太研究院、IDEA研究院被查后,医院副院长痛哭:坐十几年牢,出来怎么养老?一地几十位医卫系统干部,看了院长忏悔视频,上交97万元红包被查后,医院副院长痛哭忏悔:一二十年的牢坐了出来,怎么养老?国家大剧院副院长宫吉成:以超高清等高科技手段打造数字文化传播平台科大讯飞不能错过大模型录音直接成稿!一秒批改作文!科大讯飞星火认知大模型三大能力超过ChatGPT新华社研究院发布国产大模型报告;小红书:虚构和剧情演绎内容需显著标明;科大讯飞上半年营收78.42亿元……科大讯飞刘庆峰:星火大模型已在三个方面超越ChatGPT春日隨筆自称中文水平超越ChatGPT,科大讯飞发布星火认知大模型!!!MySQL 之父,和 Amazon、科大讯飞、宝洁、字节、用友等企业专家齐聚深圳 ArchSummit 架构师峰会!医院副院长被查后痛哭:坐一二十年牢,出来怎么养老!科大讯飞公布讯飞星火认知大模型;羊了个羊涉“欺骗误导强迫用户”被通报 ;苹果手机或被欧盟禁售……科大讯飞:6月9日发布星火认知 AI 大模型 V1.5,同步上线配套 App早鸟报|公众号可带货视频号小店;科大讯飞回应“套壳”ChatGPT;京东集团CEO徐雷退休...大模型混战:科大讯飞不能输的一战科大讯飞、华为珠联璧合,能否谱写出大模型的“中国狂想曲”?青少年近视有哪些危害?如何预防?来看北京同仁医院副院长魏文斌权威讲解——科大讯飞正式发布星火认知大模型,刘庆峰:多题型可解析数学能力已领先 ChatGPT我的私隐真的不想你偷窥---哪种社交App安全?京东集团CEO徐雷退休;浦发银行回应员工“降薪”;理想CFO李铁年薪过亿;科大讯飞否认套壳ChatGPT...我的私隐真的不想你偷窥---哪种社交App安全?被查后,医院副院长痛哭:坐十几年牢,出来怎么养老!一地几十位医卫系统干部,看了院长忏悔视频,上交97万元红包马斯克已选定新任Twitter CEO/科大讯飞否认套壳 ChatGPT/Apple ID 出现大面积故障日本籍再生医学顶级专家、博鳌国际医院副院长凌霞博士等出席,期待5月9日精彩演讲—东吴大消费行业精品策略会【东吴医药朱国广团队】5位医院领导同天被查!一位女副院长主动投案:在职大学,工作12年当上副院长回国之旅,衣着被朋友骂了科大讯飞高建清:「底座+能力+应用」是科大讯飞AIGC整体布局的三层架构美元兑换官价蓝价差一倍,好吃好玩花钱少聚焦 | 我院副院长许勤华受邀参加联合国总部可持续发展高级别政治对话被查后,医院副院长痛哭:坐十几年牢,出来怎么养老省级政法委书记带工作组调查后,青秀区法院副院长被停职检查
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。