Redian新闻
>
对话|三个月诞生79个基础大模型,中国到底需要什么大模型?

对话|三个月诞生79个基础大模型,中国到底需要什么大模型?

公众号新闻

我们讨论了三个问题:大模型是不是豪华游戏?企业到底需要何种大模型?大模型市场是否出现了泡沫

图/视觉中国


文 | 吴俊宇
编辑 | 谢丽容

去年年底ChatGPT发布后,中国企业至少已经发布了79个基础大模型。但其中绝大部分大模型都被外界认为技术上和ChatGPT存在差距。大模型商用箭在弦上,中国到底需要什么大模型?

2022年12月,微软投资的AI创业公司OpenAI推出了对话式AI ChatGPT。ChatGPT本质是OpenAI自主研发的GPT语言大模型,该大模型包含近1800亿个参数。今年2月英伟达CEO黄仁勋评价称,“ChatGPT让AI迎来了iPhone时刻”。黄仁勋认为,大模型正在降低应用开发门槛,所有应用都值得用大模型重做一次。

这并不是黄仁勋的一家之言,所有人都看到了机会。今年3月开始,中国企业也在竞相发布大模型产品。其中包括头部企业,如百度的文心大模型、阿里的通义大模型、腾讯的行业大模型,还包括讯飞、商汤科技等行业企业以及一批创业公司。5月科技部下属的中国科学技术信息研究所发布了《中国人工智能大模型地图研究报告》。报告显示,截至5月28日,国内10亿级参数规模以上基础大模型至少已发布79个。


模型的参数量很重要。目前,百度、阿里等头部公司公布文心、通义参数量通常在1000亿级别,如文心大模型参数量为2600亿。其他企业或创业公司大模型参数量通常在100亿、10亿级别。       

虽然目前市场上发布的AI模型都叫“大模型”,但参数量被默认为是大模型、小模型的界定因素之一。百度集团副总裁、百度基础技术体系负责人侯震宇表示,2022年10亿参数的模型,就叫大模型。但现在的大模型参数动辄上千亿。因为千亿参数以上才会出现“智能涌现”效应,才会形成泛化能力,才能在各个场景下具备通用能力。基于这种大模型精调出来的模型才具备更好的产业应用效果。

“智能涌现”效应,指的是模型规模、算力水平超过某个参数阈值后,AI效果将不再是随机概率事件。在通用领域,参数量越大,智能通常涌现的可能性就越大,AI准确率也会更高。在专用垂直领域,大参数模型裁剪优化后更容易获得精确的效果。

虽然中国至少已经出现了79个大模型,但多位接受我们采访的行业人士认为,大模型需要算力、算法、数据积累。由于高性能GPU芯片短缺,硬件采购成本、运营成本高昂,中国具备资金储备、战略意志和实际能力跑通大模型商业化的企业寥寥无几。“百模大战”中,绝大部分产品和ChatGPT确实存在差距。

经历喧嚣后,大模型狂热正在逐渐回归现实。国内外大模型市场正在出现更多理智思考——无法落地商用的ChatGPT只能是玩具,能成为企业应用的大模型才有产业价值。

一方面,苹果、三星、摩根大通等企业因为安全考虑禁止员工使用ChatGPT。另一方面,ChatGPT用户增长、留存已到瓶颈。网站分析工具SimilarWeb数据显示,ChatGPT在1-5月流量环比增速分别为131.6%、62.5%、55.8%、12.6%、2.8%。6月初,摩根士丹利调查显示,只有19%的受访者表示使用过ChatGPT,只有4%的人表示依赖ChatGPT。

侯震宇说,“3月大家都在发挥纯粹的想象力,提的需求要多科幻有多科幻。但4月后,大模型的局限性显露,大家才慢慢看到了更多实际需求。”主客观因素影响下,全球基础大模型均主要面向To B行业市场。

大模型在To C端商业化前景缓慢。目前面临算力成本高昂,用户规模越大企业亏损越多等问题。也无法避免输出错误“噪音”,甚至还有信息泄密、政策监管等伦理挑战。即使微软,也只是在工具类产品(office办公套件、网页浏览器、Photoshop等修图工具)中部署大模型。微软向工具类企业卖服务,其本质仍是To B商业化。

大模型面向To B端企业客户落地才是务实做法。在行业市场,客户需求蓬勃且明确。在全球,零售、金融、制造、政府等领域都在靠大模型进行智能化升级。行业共识是,在大模型基础上经过行业知识精调的模型,其特定工作表现,会优于未经优化的通用基础大模型。

市场调研机构IDC在今年5月公布的数据显示,2022年中国人工智能市场总规模为122亿美元,其中硬件81.3亿美元,软件26.9亿美元,服务14.1亿美元。IDC预测称,2026年中国人工智能市场规模将达到269亿美元,其中硬件148.5亿美元,软件76.9亿美元,服务38.9亿美元。硬件、软件、服务的年复合增长率分别为15.1%、 32.0%、28.5%。


狂热回归现实时。我们6月与百度集团副总裁侯振宇、百度智能云副总裁朱勇展开了一场名为“中国到底需要什么大模型”的对话,侯振宇和朱勇深度参与了百度文心千帆大模型平台的打造和商用生态的塑造,在这场谈话中,我们探讨了三大问题:大模型是不是豪华游戏?企业到底需要何种大模型?大模型市场是否出现了泡沫?

对话人简介:

百度集团副总裁 侯震宇(负责百度智能云事业群组云计算产研团队和基础技术工程团队)

百度智能云副总裁 朱勇(负责百度智能云应用产品中心)

主持人:《财经》杂志副主编 谢丽容

以下是对话实录精华版: 

大模型是不是豪华游戏?


《财经》谢丽容:中国掀起了大模型创业潮(国内10亿级参数规模以上基础大模型至少已发布79个)。常识是大模型的门槛很高,但中国市场现状似乎并非如此?

朱勇:大模型门槛是相对的,其中会有不同类型的玩家。第一类和百度一样,从零开始做基础大模型。这对算力、算法、数据、人才的要求都非常高。

以数据为例,基础大模型需要海量数据训练,其中包括互联网数据、专业领域数据、新闻资讯数据,以及经过高质量的专业标注的数据。以算力为例,ChatGPT这样的千亿级参数大模型,需要英伟达最高端的A100/H100 GPU连续训练100天才能得到。算法、人才也是关键。工程师训练手法不同,就像不同厨师基于同样原材料做的菜口味都不一样。这需要长期实践经验积累,所以门槛很高。

第二类是行业大模型,基于基础大模型能力做一些微调、针对性定制。这比过去从零开始数据标注、算法精调的成本大大降低。第三类基于前两类大模型开发应用,百度、其他企业甚至是一些开源平台都提供了开发工具,让软件开发门槛变得更低。

《财经》谢丽容:中国的大模型在全球市场究竟是什么水平?

候震宇:个人觉得中国的大模型在全球市场还是领先的。大模型研发和搜索引擎研发其实是类似的,都需要非常深的技术积累。从全球来看,能研发独立搜索引擎技术的国家寥寥无几。目前能完全独立研发大模型技术的,可能只有中美两个国家。

《财经》谢丽容:大模型有没有绝对的先进和落后?

候震宇:大模型没有绝对好、坏。尽管它在不同领域可能会有一定的差别,但就像选择智能手机一样。有人用苹果,有人用安卓,最适合的才是好的。大模型刚推出时,经常会有人考它一些刁钻的问题。但事实上,在真正严肃的企业级环境里面,不太会有这样的场景。我们需要针对企业自己的业务场景选择更适合的大模型。特别是中国企业,需要选择中文理解力更好,适合中国企业特点的产品。

《财经》谢丽容:百度在大模型方向究投入了多少资源,多少人才?

候震宇:AI大模型是百度核心战略,它需要持续全方位高强度投入。以算力为例,我们过去GPU数量的积累,是以万为单位计量,这一笔巨大的投资。百度经过多年还开发出了一整套工具链平台,能够更快训练模型。

过去10年,百度在AI方向投入已超过1000亿元。百度作为一家技术公司,每年研发投入的营收占比都超过20%。(备注:2019年后,百度核心研发支出的营收占比长期超过20%。2022年百度研发支出率为24%,在中国科技企业中仅次于华为的25%。百度核心指剔除爱奇艺后的百度自有业务)但大模型也不是投一笔钱、做一个模型那么简单,它需要有算力基础设施、精调数据积累、有经验的AI工程师在好的工具链平台长期积累。大模型还需要后续持续敏捷迭代,大公司相对会更成熟。

《财经》谢丽容:创业公司做基础大模型,除了要有钱、要有卡、要有数据,还有哪些挑战?

候震宇:钱、卡、数据,本身就很有挑战。创业公司做基础大模型,除了起码的算力,足够多、质量好的数据,有经验的AI研发人员,还需要能够把模型、算力管理好的云平台。目前大公司基本上都是用云对外提供模型服务。比如,百度就是通过百度智能云上的文心千帆大模型平台对外提供服务。这可以支持大模型后续快速迭代。

《财经》谢丽容:一些企业正在开始自建大模型。自建大模型是不是必须的选择?2014年公有云刚刚兴起时,某些客户会担心数据安全,它们使用大模型时,是否也会担心这个问题?

候震宇:每一家公司都需要考虑拥抱大模型。但每一个企业是否都需要自己做一个大模型?我觉得不一定。自己从头开始去做一个基础大模型成本非常高。企业拿自己的数据在别人的基础大模型做精调,一样可以获得非常好的效果。

朱勇:我觉得企业更多应该去想怎么用上大模型,怎么用好大模型。每个企业都可以拥有自己的大模型,但没必要重新开始做。因为百度这样的企业已经提供了很好的技术底座。可以依靠百度做一些定制化产品,这对客户来说是性价比更好的选择。谈到数据安全问题,这并不是大模型带来的新问题。如果类比云计算的话,我们有公有云、私有云、托管的方式。在大模型商业模式上,我们已经充分考虑过相应的产品。

《财经》谢丽容:智能手机、云的普及都是因为价格足够低。中国大模型什么时候才能进入普遍应用阶段?

候震宇:它本身就带来了大量的成本节省,是比以前更先进的AI应用范式。过去,企业研发AI应用时,需要根据应用场景做数据清洗、标注,对模型训练、推理、优化。这是全流程的工作,人力成本很高。但基于大模型,不需要过去那么多数据、时间、资源、人力。我建议企业尽早关注、使用大模型技术,因为它会大幅度降低AI应用门槛。

中国企业需要什么大模型?


《财经》谢丽容:百度的文心大模型3月开始内测。内测中,企业是否可以清晰地提出自己的需求?他们的需求集中在哪些层面?

朱勇:距离3月份内测以来,我们已经陆续接到了超过15万家客户的接入请求。同时也有几百家合作伙伴跟我们在场景中进行研发测试。这覆盖了互联网、制造、金融等不同行业,里面很多场景是高价值的。总结一下,比较高频出现的场景有几大类——知识管理、内容创作(营销文案创作、媒体资讯的创作)、智能客服、代码生成、办公提效。

《财经》谢丽容:数字化转型市场长期存在一个问题,很多客户不知道自己想要什么。在大模型领域,这个矛盾是不是也存在?

朱勇:不同行业、不同客户确实存在差别。比如在互联网行业,大模型出来后大家高度关注它的最新进展。他们的技术理解、产品认知都是非常领先的。我们能很快在一起进行研发测试,做了Demo和产品创新。

有些传统产业,数字化基础稍微薄弱一些。所以百度会有大量工程师跟客户在一起共创,将AI能力跟他们的行业痛点相结合。这其中也看到了很多鲜明的产品。AI技术跟行业相结合时,一方面需要懂技术、懂AI,另一方面要有懂行业。我们跟客户、合作伙伴对接时,经常需要双方在一起共创。

《财经》谢丽容:百度怎么给不同行业、不同类型的客户提供大模型服务?从客户角度如何评估性价比? 

朱勇:在价格层面,如果企业刚开始尝试且对价格敏感,那么推荐公有云服务。这相当于根据调用次数,Pay-as-you-go (用多少花多少),不需要一次性基础设施投入,这也是云计算的优势。但对愿意进行较大基础设施投入并自建智能化底座的客户,百度可以提供一整套AI模型和AI底座。企业可以基于AI模型和AI底座开发应用。

《财经》谢丽容:企业怎么选择适合自己的大模型?

候震宇:第一,肯定是模型效果,这是选择大模型的基础。企业需要评估大模型在使用场景中能够发挥的价值。第二,大模型所在平台是否支持便捷的二次开发、训练,这决定了大模型是否具有生命力。大模型技术迭代速度非常快,平台应该支持企业对自己的模型、数据进行训练迭代。第三,大模型的实际落地成本和交付形态。企业可以根据需要选择公有云、私有云的交付模式。

大模型会使AI能力变得越来越通用化、规模化,但在最初落地时,我们需要一个个标杆客户、一个个行业领域做下去,还需要把不同场景里的数据、应用和百度智能云内部系统做对接。这需要逐步积累。

《财经》谢丽容:文心千帆被定位为一站式企业级大模型平台,怎么去理解“一站式”、“企业级”?

候震宇:首先说“一站式”, AI是由数据驱动的技术。AI从诞生之初就要做数据收集、清理、标注,再根据现有模型做训练,训练结束后要对精调数据、模型版本做管理,最后将其投放到业务中使用。这是一整套流程。百度提供了这些能力,而且很易用。客户在AI使用全生命周期中的需求,都可以完成。

再说“企业级”,企业级应用不是个人应用,不是上传照片那么简单。企业级应用会更精细、复杂,需要考虑规模化、扩展性、实施成本、稳定健壮等因素。

《财经》谢丽容:百度对外称,文心千帆大模型平台有六大特点——易用、安全、全面、高效、开放、集成。易用为什么要摆在第一个?是不是只有好用的技术才会被普及?

候震宇:易用非常重要。自然语言大模型可以给客户提供更易用的接口,方便大家和机器来做交互。“云智一体,AI普惠”一直是百度智能云的战略。AI普惠必须要降低AI使用的门槛,其中包括数据使用门槛、资源使用门槛、以及人使用AI的门槛。其实这没有脱离技术主要逻辑,

《财经》谢丽容:过去三个月,公众已经被很好地普及了人工智能大模型。对千行百业来说,大模型的商用时机是否已经到了?好的商用节奏应该是怎样的?

朱勇:人工智能大模型对研发和应用范式的变革非常明确。越早拥抱大模型、理解大模型,越会让它对业务产生作用。这不是 Yes or No 的问题。谈到节奏,不同企业拥抱大模型的方式不一样。有的企业可以从单点应用尝试开始,利用公有云调用服务,这样可以更低成本地快速验证做Demo开发。

另外一方面,无论是大小企业,都要培养AI原生思维。很多应用可以通过旧的技术手段实现,但也可以用大模型通过渐进式的方式进行改造。在这个过程中,产品形态会逐渐改变。按照百度公司内部的说法,未来所有的产品都会基于大模型重新做一遍。 

大模型市场出现泡沫了吗?


《财经》谢丽容:在面向企业的B端市场真的需要那么多大模型吗?

侯震宇:我个人看法是,基础大模型其实不需要那么多。当然,这只是从终局往前看。但在任何一个行业发展早期,市场会变得繁荣且存在泡沫。从产业发展的角度来看,我们应该允许现在有一定的泡沫。我们也应该正视这一点。但我仍然相信,在大浪淘沙之后,最终提供基础模型服务的,仍然是为数不多的几个企业。

朱勇:基础大模型方向,虽然现在有很多玩家,但是真正能够坚持不断保持快速迭代,不断开发更全面、更完整工具链,不断基于客户反馈来提升产品能力的企业不多,因为这是不简单的事情。大模型虽然现在可能很热,但这是长跑。最后会像今天的云计算格局一样,市场会逐渐收敛。

《财经》谢丽容:很多做服务器硬件的企业也要做行业大模型。百度曾经是他们的客户,现在变成互相竞争。我们应该怎样和平共处?

侯震宇:我觉得不能直接说竞争,我们首先还是合作关系。双方的确会有相近的服务,同时面对相近的行业,但我们和传统硬件厂商更多还是互补关系。百度是一家互联网基因的AI公司,积累了大量通用数据,有通用大模型,优势在AI、软件、科技等领域。传统硬件厂商积累了行业数据,在传统政企行业等垂直领域打磨出了Know-how。双方的基础大模型不一样。百度和新华三等企业,既是服务器、交换机采买的合作伙伴,同时也会共建大模型。双方已经共同服务做了很多客户。

《财经》谢丽容:百度平时会关注竞争对手的大模型在哪些方面的进展?

朱勇:第一,技术和整体效果。第二,配套工具。第三,商业模式。如果你再回到三四年前,人工智能市场还是比较遥远,但今天深度学习的技术、产品商业化、投资、开源生态,都在加速发展。

《财经》谢丽容:未来几年,大模型会是百度核心的重点方向吗?为什么?

候震宇:大模型会是百度的核心重点方向。百度是一家AI公司,大模型是AI的发展方向。不管是在To C端,还是在To B端,它都将会给百度的产品、服务带来巨大变化。对于百度来说,大模型让人非常兴奋,这既是机遇,也是挑战。百度对大模型会持续投入。大模型会让云计算加速进入AI时代,重塑云计算格局。MaaS(Model as a Service)的地位会变的越来越重要。也会加速实现百度提出的“云智一体”战略、“AI普惠”理想。

《财经》谢丽容:2016年开始的上一轮人工智能商业化出现了一些问题,企业不得不做很多定制化工作。大模型要如何规避上一轮人工智能商业化遇到的问题?

候震宇:这一轮大模型产业落地,和十年前以深度学习为代表的AI产业落地是不一样的。这是AI研发的新范式,和以前的投入不一样。大模型出现之前,AI最被诟病、落地最难的是,实际产业环境场景碎片化。比如闸机的人脸识别、支付的人脸识别都不一样。因为光线、环境不一样,需要面向不同应用,根据客户积累的数据从头做训练,再去拿到场景里做适配。这种定制化交付非常烦琐。

但在基础大模型下,不需要太多精调数据,不需要训练太多轮数,就可以获得非常好的结果。基础大模型解决众多场景比以前容易很多。大模型的泛化能力比以前强很多。这和上一轮的AI落地不一样。去年10亿参数的模型,就叫大模型,但现在的模型参数动辄上千亿。在千亿参数以上,才会有智能涌现,才会有更强的泛化能力,才能在各个场景下具备通用能力。

《财经》谢丽容:当很多人都涌入到一个行业里的时候,泡沫可能不可避免。大模型如果要良性发展,有哪些建议?

候震宇:对大模型从业者的建议是,量力而行。不一定全部都由自己去做。而是考虑AI商业化落地,找到最适合自身能力的场景和链条。我们希望行业在早期快速发展时,允许有一定的泡沫。但政策对技术运用的监管、行业评价技术好坏的标准能达成共识。有标准可循,有规矩可依,这样才能良性发展。

朱勇:还要转变思维方式。大模型是分水岭式的技术、颠覆式的技术。要保持开放心态、持续学习。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
斯坦福官宣:这门转码编程课,零基础留学生7天速成!(附资料包)我们到底需要什么样的语文课?650亿参数,训练飙升38%!LLaMA基础大模型复刻最佳实践开源,GitHub已获30k星张艺谋电影最屈辱的一幕坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」郑旭光:'习近平很有定力'阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl李彦宏最新演讲:即将改变世界的,为什么是大模型?Citywalk还是其他?我们到底需要什么样的旅行?GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群调查| 直接对话港府!香港需要什么人才?华为率先把大模型接入手机!小艺+大模型,智慧助手智商+++会养老鼠做细胞却不会看病?我们到底需要怎样的医生那些高薪的岗位,到底需要啥技能?女儿要当Zoologist对话中国大模型的最早推行者黄铁军:全球可能只需要三个大模型生态ChatGPT的过去,现在和未来——这才是今年Build上最重要的对话|大模型新鲜事希腊圣托里尼岛(Santorini),晨光白房到底需要什么样的经济政策?全球网络最重要的13个基础设施,到底控制在谁手中?今年的设计院,到底需要什么样的人才?一个人也能开发大模型?动手前你还需要这些实战技术“80”“90”后体面养老,到底需要多少钱?《許你一世情緣》我们到底需要怎样的“产业一哥”知道自己需要什么是本能,懂得自己不需要什么是智慧360正式发布自研大模型,周鸿祎:国产大模型追赶GPT4的速度远超想象To B大模型,一场重塑企业软件的大模型革命哪家中国芯片公司能“吃下”大模型?目前只To B,腾讯云为什么优先发布行业大模型,而非大模型?企业家们口中的“新职业”到底需要哪些技能?Citywalk 还是其他?我们到底需要什么样的旅行?中国市场,到底需要什么样的大模型?对话黄东旭、关涛、李远策:AI热潮下,用户到底需要怎样的数据平台?|GGView接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。