中国信息通信研究院副院长魏亮:大模型应用带来三大变革和三大挑战
11月22日,由《财经》杂志、财经网、《财经智库》联合主办的“《财经》年会2024:预测与战略”在北京举行。中国信息通信研究院副院长魏亮在会上表示,当前大模型发展的两个途径是一横一纵。横向,使用更多的模型参数,更大的算力,用更多更好的数据去训练和精调,使大模型变成全才,什么都能干,干得更好。纵向,是基于基础大模型,把行业知识场景灌注进去,形成相对来说比较专用的,但是规模都可控的行业大模型,比如金融大模型、教育大模型、电力大模型等。
在魏亮看来,大模型应用带来了三大变革和三大挑战。变革包括人机交互的变革,生产力的变革,研发的变革。挑战方面,第一是高质量数据供给不足,大多数企业都认为数据处理是重大挑战。我们缺乏高质量的数据集,缺乏很好的数据治理平台,缺乏数据治理方法,现在数据流通还有一定障碍。第二是模型运维管理不成熟,组织落地的驱动力不足,模型的治理非常复杂,难以追溯,支撑的工具很难用,也很难集成。第三是缺乏风险防控体系,这个体系相对薄弱,工具不成熟,责任主体不明确,流程不规范。
他认为,针对这些风险也有几方面工作可以做。数据治理方面,可以建立一些很好的企业中台,建立数据治理平台,提高企业内部治理的供给能力,同时也可以进行全生命周期的数据质量管理,来提升这个能力。管理方面,可以连接管理团队、部署团队、运营团队等,把他们关联起来一块努力,建立一个标准化体系。风险管控方面,可以通过机构的设置,管理机制的落实,实现人工智能的战略目标,全面监控AI风险。这些都是比较理想的,要把人工智能真正工程化运用到产业中去,这些是需要努力的方向。
以下为部分发言实录:
各位来宾下午好,非常高兴今天来参加这个论坛,今天想跟大家分享的是关于大模型的相关研究和我们的思考。
今天的分享分三个方面,第一方面是关于大模型技术的突破,我们正在迈向通用人工智能。
前面专家已经讲到人工智能出现较早,再过几年快八十年了。第一阶段是专家系统,专家想好了什么样的问题什么样的回答,然后变成一个系统,一些专业的任务就可以用它。接下来到了机器学习时代、深度学习时代,这时在很多方面都有突破。一些一开始认为很难的问题比如手写体的识别、图象的识别,都有了突破。去年10月份ChatGPT发布以前,大家没有那么乐观,认为还处于弱人工智能时代,而且这个时代还会持续很多年,对人工智能的快速发展大家都没有非常充分的认识。10月份ChatGPT发布以后,我们感到通用人工智能扑面而来,非常迅速的到来了。
大模型阶段,对照大模型的能力,它已经非常接近通用人工智能。我们可以对照一下它的准则,关注能力而非过程,通用性而非性能等。当前在大模型时代,ChatGPT为代表的大模型接近了通用人工智能,初步展现出通用人工智能的能力。和之前的人工智能相比,大模型有几个特点:第一,它的规模可扩展,随着算力的增加,训练的增加,它的性能不会受限制,能够线性提升。第二,它适应多任务,能够一个模型对应多个任务,能完成很多任务,而不是像原来一组模型只能完成一个任务。它是数据驱动的,而且支持相对复杂的推理。它有知识记忆的能力,简单说通过它千亿级的参数,ChatGPT4已经把2023年4月以前人类的知识都学到了,存储到海量参数里。
当前人工智能发展的两个途径是一横一纵。一横什么意思呢?我们用更大的算力精调算法,用更好的训练数据去训练它,使得人工智能这个大模型变成一个全才,什么都能干。还有纵向,基于基础大模型,把行业的知识灌注进去,形成相对来说比较专用的,但是算力需求规模都可控的行业大模型,比如金融大模型、教育大模型、电力大模型等。
用一个不太恰当的比喻,相当于高中毕业以后横向发展就是读一个大学什么都学,将来出来什么都知道一些,干什么都行。纵向相当于高中出来以后进入一个专科学校,电力专科或者会计专科,在某个方面很能够胜任工作,但是让电力专科出来的学生去做会计肯定做不了。现在是两个方向,横向向更通用的方向发展,纵向更专业、更精专,在一个行业发展。各自有不同的厂家走不通的路线,比如Open AI、Meta之类的在做横向工作。这个选择也有很多条件的限制。国内做的行业大模型比较多、比较好。我个人认为也有一些算力方面的限制。比如,国外Open AI的算力有4000P Flops,而且随时可以扩展到E级,有新建的E级算力。中国算力中心达到1000P以上的很少,应该是个位数,剩下的算力都几百P。在现有的条件下,做一些专业的事情,更专的、更贴近行业应用的,更加符合现状一些。
当前基于通用大模型的生态在逐渐形成,服务分几个层次,不同厂家在不同层次上提供不同的服务,现在大家各自运营。最底层资源,比如算力资源、存储资源、网络资源,有些设备厂家或者基础的厂家为大模型提供算力、提供网络,就像原来的公有云、算力云一样。再上层,提供一些工具链、平台、开发工具等。你要做大模型,能够极大降低你做大模型的门槛,你在它的平台上用了它的工具,你很快可以用一些数据或者基础模型训练出你能用的东西,这是基于平台提供平台性的服务。还有提供基础模型,比如它做好行业大模型或多模态大模型、场景大模型,可以方便使用。上层有一些模型的应用,国外的Open AI、百度智能云都在这么提供,通过API接口调用它的能力,结合你自己的对用户提供一些服务,在这四个生态服务商有不同的厂家,大家都在实践探索。
第二,当前我们看到的大模型应用带来了三大变革和三个挑战。
变革包括人机交互的变革,生产力的变革,研发的变革。人机交互的变革显而易见,原来机器能理解的是一些指令,要让机器干特别的事情,必须由研发人员替你编程,把你的需求翻译成机器能听懂的语言,然后你就可以做一定的应用。程序的输入可以比较灵活,总的来说你要干什么必须要有特定的程序针对某个应用进行编程。
在输入阶段,有了大模型之后这些都不需要了,你可以有非常自然的多模态的输入,比如自然语言的输入、图片的输入或者视频的输入,这些输入也不需要为某个应用专门编程,这是对输入模式的演进,非常灵活。
在处理阶段,原来编程除了要翻译以外,还要想好每一步怎么做,做什么,任务怎么拆解,整个逻辑是怎么样的,思维链是怎么样的。有了大模型以后,它可以通过语法分析多轮对话来理解你的意图,自动把你的任务拆解后有逻辑的串联起来,通过搜索它的千亿级参数,它就可以知道怎么做,最后给个答案,核心处理技术也是一个创新。
在输出阶段,可以有一个多模态的输出。视频也好,图象也好,文字也好,甚至直接控制一个机器人,你想做什么,它控制一个机器人替你做了,或者控制周边的设备、传感器或者灵活利用周边设备帮你把工作完成。它的输出不仅仅是简单的输出,它可以变成一个任务的结果,这是关于人机交互的变革。
第二个变革是生产力的变革。一般来说很多技术要真正影响你的生活,需要很长的时间或者很长的过程。比如你研发了新材料,像超导材料,真正用到你生活中的某一项设备或者某一项生活周边需要很长的时间。比如,大家说量子是非常重要的,将来可能会改变很多,因为我们的认证体系是基于密码算法的。现在我们的密码算法,量子计算出来以后整个认证或者信任体系会崩溃。即使出来量子计算机,真正有影响还需要很长时间。但是我们看到,ChatGPT在去年10月出来后到现在刚刚一年,已经改变很多,可能有些行业接触的比较多一些,感受比较深刻,有些行业还没有看到。
典型的几个行业,比如软件行业已经有了非常大的变革。有些行业的数据需要治理,需要规范,没有很好的数据源。软件行业不一样,好的软件,好的程序有很多。有了这些语料,有了这些数据集以后,可以输出很好的成果。在软件工程里面,大模型已经有了非常好的应用。Github Copilot发布以来为100多万开发者编写46%的代码,5年后预计80%代码由AI生成。有一些软件企业已经不需要那么多程序员了,很多事情都可以用人工智能,而且这确实提高了效率,减少了人员。
有了大模型以后,模型可以通过学习把知识存储在参数里面,很容易实现关系的抽取、属性的抽取,实现搜索关联等。还有一个行业现在用的比较好、比较多,就是内容方面。关于内容产生、内容审核、内容推荐、内容传播等,网上看到的很多都可以利用大模型做一个创意。比如利用小红书上的模板生成文案、生成图象、生成视频,生成效率会有很大提高。这是大模型迅速应用到生活,应用到我们身边,赋能我们的内容生产,赋能我们的知识管理,助力软件工程。
第三个变革是对研发的变革。研发的变革是一个范式的变革。刚才有专家说到,原来通过做实验,通过观察,希望观察到现有理论公式解释不了的数据,那可能是新的东西。基于这些不能解释的现象和数据,我们要通过人想出一个模型或者想出一个理论去解释它,解释以前的,预测未来的,通过计算去验证它是否在一定范围普适,这是原来的一个范式。大模型时代的范式,你只管把数据给它,不需要你去思考,它替你思考,给出一个答案,你喂给它足够多高质量的数据,它可以给结果,中间会提炼出一些公式,提炼出一些理论,但是它是相对比较直接的,通过数据直接触摸事实或者现实。
应用到基础理论里面,AlphaFold2能够破解几乎所有已知蛋白质分子结构,是结构生命学革命性的突破。还有分子层面的合成方案,一些设计比传统的用时从几个月提升到几十分钟、十几分钟,成为产品的开发工具。有了大模型以后,原来的很多事情通过大模型做一些仿真验证就行了。或者在药物开发方面,在遥感方面,我们通过大模型很容易开发产品和工具,这是对科研的新范式,通过数据到结果到事实。
人工智能面临着几方面挑战,这里总结了一下。工程化的过程中有几个挑战:第一是高质量数据供给不足,大多数企业都认为数据处理是重大挑战,我们缺乏高质量的数据集,缺乏很好的数据治理平台,缺乏数据治理的方法,现在数据流通还有一定障碍。在我们国家,版权数据用于训练是否完全合规还在探讨过程中,要求由合法渠道获得的数据,这也是一定的障碍。第二是模型运维管理不成熟,我们组织落地的驱动力不足,模型治理非常复杂,难以追溯,支撑工具很难用,也很难集成。第三是缺乏风险防控体系,这个体系相对比较薄弱,工具不成熟,责任主体不明确,流程不规范。
针对这些风险也有几方面工作可以做,首先数据治理方面,可以建立一些很好的企业中台,建立数据治理的平台,提高企业内部治理的供给能力,同时也可以进行全生命周期的数据质量管理,来提升这个能力。总的来说,提升高质量数据的供给能力,有利于整个大模型的好用能用。管理方面,可以连接我们的管理团队、部署团队、运营团队等,把他们关联起来一块努力,建立一个标准化体系,这都是怎么把大模型工程化落地的一些关键要素。风险管控方面,可以通过机构的设置,一些管理机制的落实,实现人工智能的战略目标,全面监控AI风险,这些都是比较理想的,这是我们要把人工智能真正工程化运用到产业中去需要努力的方向。
展望通用人工智能赋能新型工业化。新型工业化非常重要,中国梦具体到工业领域的路线就是新型工业化,在新型工业化中,我们有非常好的机遇应用人工智能,我们直接走到智能化,我们国家两方面都有很好的条件。一个是人工智能方面,中国是第二,核心产业规模5千亿,企业超过4千家,整个专利的数量、论文的数量都非常可观,占比仅次于美国。而且我们有很好的算力,国家的通用算力增长速度远远高于全球或者美国的算力增长速度。10亿参数以上的大模型已经有79个,数量仅次于美国。
在工业方面,工业的增加值突破了40万亿,占GDP比重的33%。我们当前正在工业的数字化转型过程中,我们正在快速进入数字化阶段。在这个过程中,我们又恰逢通用人工智能大模型的机遇,我们有条件、有理由把大模型很好地应用到工业生产中。我们知道数字经济增长非常快,去年是50万亿,数字经济80%左右是产业数字化。产业数字化就是把数字化应用到产业中,我们可以在数字化过程中应用好大模型,制造业走向智能化。
我们可以应用在很多环节中,比如应用在研发、内容生成、设计效率、模型生成中。在生产制造环节,可以提升质量;在检测环节,可以提升精度,降低检测成本;在营销环节,可以很好地把售前、售中、售后的效率和服务质量进行提升;在管理环节,可以利用大模型的推理分析能力,加强供应链管理、企业内部管理。所以在新型工业化过程中,大模型能够发挥非常好非常大的作用。
最后简单汇报一下,信通院长期以来在做人工智能方面的研究,一个是依托重点实验室,还有一个是依托中国人工智能产业联盟,联盟就是很多企业大家一起做,致力于AI平台工程化创新和生态、治理等多方面的具体技术研究,这方面都有进展,在国家战略和产业发展方面全方位进行支撑。希望跟在座的同行和上下游的企业、高校院所能够进行合作,共同努力推动国家大模型在新型工业化中得到很好应用。以上是今天的分享,谢谢大家。
责编 | 张雨菲
题图|财经年会2024现场
微信扫码关注该文公众号作者