阳光保险张晗:在未来的保险行业,百亿级专用模型将成为主流趋势
本文整理自李鑫与张晗的对话内容(经 InfoQ 进行不改变原意的编辑整理):
张晗: 我们现在面临的情况是,尽管保险产品越来越多,但国内只有几十家保险公司,与像美国这样的成熟市场的上千家保险公司相比仍然较少。关键在于,我们需要更多能真正满足客户需求和提供优秀用户体验 的保险产品。
据德勤的报告,有 66% 的高管认为,在未来 3 到 5 年内,数字化和人工智能 对保险行业的发展将产生至关重要的影响。我们看到,像微保、蚂蚁保等平台所提供的用户体验极佳。
举一个例子,最近有关微软收购动视暴雪的新闻。在游戏行业,动视暴雪是游戏产品的开发方,而微软更像是流量平台方。这种趋势可能也会出现在保险行业,产品开发方可能会逐渐向流量方倾斜。在这个趋势下,保险公司必须进行转型,探索如何更为经济高效地为客户提供平台和流量,达到更好的获客效果。
另外,在当前大背景下,我们注意到保险科技初创公司 的兴起。一些初创公司,如小雨伞,重点在于线上化的保险业务,而其他的则更偏向于技术服务,例如为代理人提供寿险产品对比工具的绩效新书。另一些与传统保险公司合作的技术厂商,他们专注于图像识别,能够识别发票、医疗影像和诊断报告。
在大模型出现前,智能化主要集中于保险的理赔和服务端,如自动化理赔和车辆损伤判定,但并未完全替代人工。现如今,随着技术的进步,特别是在对话、理解以及话术生成能力上,我们看到了向全自动化转型的可能性,为数字化转型带来新的机会。
我记得之前搜狗的前 CEO,百川智能的小川老师,在清华的校庆上提到“小创新、大厂生;大创新、小厂生”。这意味着,在大的创新浪潮下,小型保险公司可能有超越大公司的机会,因为大公司可能存在历史包袱和转型难题。
对于阳光保险,我们在人工智能上已有较大投入,虽然在某些环节可能落后于大公司,但我们有更轻的历史包袱,在大模型时代可能有更多机会进行大胆尝试。另一个趋势是人口老龄化和社会化养老产品的涌现。我认为,大模型在健康和医疗行业的应用有巨大的发展前景。
张晗: 保险行业作为一个传统的金融领域,对于人工智能技术的适配和应用是非常有挑战性的。
首先,很多从事保险业务和产品设计的人对人工智能和大数据技术不甚了解,不知其可以为他们带来的价值。另外,我们技术人员也经常在确定应用场景时感到困惑。
大模型的出现显著改变了这一困境。其引入让从管理层到一线员工都看到了人工智能的潜能。以 ChatGPT 为例,它展示了出色的交互能力,能够像人一样与我们沟通和理解情感。阳光保险在技术投入上对人工智能和大数据的重视显著,自 2021 年起,我们的 AI 团队已经增长了三倍,突显公司对此技术的高度认可。
今年,在大模型的支撑下,我们迅速确立了大模型平台与大数据平台的核心地位。我们深入探索了大模型的能力边界,在双底座建设中积极探索了各种应用场景,尤其是销售、服务和管理等业务领域。
以寿险销售机器人为例,通过利用过去代理人与客户的交流数据,我们采用了端到端的大模型策略。这种策略不仅可以与客户进行多轮对话并有效引导销售主题,还能根据客户特点生动地打动他们,虽然在主动销售引导上还存在一些不确定性。
同时,我们也在车险销售领域利用大模型对传统技术如 CNN、RNN 和 Transformer 进行了升级,大大提高了对客户意图和信息的理解能力。更令人欣喜的是,在人伤理赔场景中,通过大模型的优化,我们在识别受伤部位和程度,以及医疗影像分类和信息提取方面都取得了显著的突破。
总的来说,今年我们在多个业务领域的技术应用和探索上都取得了令人满意的成果。
张晗:"阳光正言"大模型,它的底层结构其实并非全新,主要基于 Transformer 结构。这与我们以前熟悉的 Bert 或 GPT-1 不同。Transformer 最初是用于翻译模型上,源于一篇名为《Attention Is All You Need》的原始论文。
早在 2017 年,这样的模型结构已经出现。到 2020 年,GPT-3 已经发布,自那时起我们开始关注 GPT 系列。值得注意的是,GPT 是 OpenAI 发明的,而 Bert 是谷歌发明的,这两者的训练目标完全不同。GPT 是生成式模型,Bert 则是掩码语言模型(MLM)。生成式模型按顺序预测单词,而 MLM 用于完形填空任务,生成式模型的难度相对更大。
初期,Bert 相对于 GPT 在互联网应用和保险行业中的应用更为广泛。但到了 2020 年,GPT-3 的出现引起了我们的关注,尤其是它引入了基于提示的学习(Prompt-based Learning)的概念,这被视为一个重大创新。此概念统一了传统的 NLP 任务,减少了下游任务的专项训练需求。
到了 2021 年,我们对基于提示的学习进行了评估,预测其未来将有大的发展。2022 年,我们尝试使用 GPT-2 进行一些闲聊应用,但受到模型能力的限制并未形成产品。然而,到 2022 年底,OpenAI 发布了 ChatGPT,这是一个震撼行业的产品。我们从那时开始关注,并在 2023 年初完成了关于 ChatGPT 在保险行业的应用可行性分析,然后向领导汇报。
2023 年初,我们定期汇报 ChatGPT 和其他大模型技术进展,到 3-4 月间我们完成了我们“正言”大模型的内部原型。接着,我们开始接触 ChatGPT,让全体人员体验它的能力,例如文档写作、会议摘要等。这个模型命名为“正言”,它有两层含义:第一,它可以为你提供正确的答案;第二,我们非常关心大模型的安全性和可靠性。因此,我们对敏感内容进行了筛选,主要目标是打造先进的、统一的、业务友好的大模型底座。
6 月初,我们进入大模型的研发加速周期,成功启动了几个重大项目,如寿险机器人和车险的全流程线上销售机器人等。目前,我们已经取得了一定的成果。
张晗:目前的算力成本对于大模型仍然较高。 例如,微软的 bing 搜索引擎,在引入大模型后,虽然用户体验得到了显著提升,但亏损也随之增加。这无疑是一个事实,但我对大模型的应用前景保持乐观。
当初 ChatGPT 刚发布时,有人疑问:如果大模型如此先进,那学术界还有研究的必要吗?但实际上,经过半年的观察,我们发现学术界的研究领域正在细分,如 Agent Prompt 的研发、GPU 虚拟化等领域的研究越来越多,且进展迅速。我相信,在接下来的 3-5 年,算力成本会降低。
因此,我们的策略是垂直深耕某些关键场景,同时在保险行业广泛尝试,探索技术在不同场景下的应用。如果在某些场景下大模型效果不佳,我们可以考虑先从辅助应用开始。
另外,我们注意到,传统机器学习并不像现在这样依赖 GPU。比如在过去,我们只需要使用 2000 个 CPU 核心来训练外卖推荐算法和搜索算法。但现在,随着深度学习模型的兴起,GPU 资源管理和优化变得尤为关键。像京东和腾讯等大公司在此领域都投入了大量的研究。据我所知,近期的技术如 Flash Decoder 可以将推理性能提高数十倍。
张晗:从技术的视角来看,大模型和专用模型可以共存。不可能出现通用大模型在所有场景下完全替代专用模型的情况。
首先,尽管大模型需要更多的训练资源,但其模型结构并不新颖。我们回溯到 2017 年,Transformer 发表之后,技术领域发生了巨大的变化。在那之前,图像处理通常依赖于 CNN 技术,而自然语言处理则更多地使用 RNN 等技术。但 Transformer 结构,不仅仅因为它在预训练技术方面带来了效果上的提升,它的并行化计算也在性能上取得了飞跃。
这意味着在 Bert 之后,RNN 在业务应用中的使用几乎被淘汰。在图像领域,近年来也逐渐转向 Transformer 结构,目前的图像预训练模型往往首先利用 CNN 进行特征提取,然后使用 Transformer 进行图像特征的进一步处理,再与自然语言处理中的 Embedding 层结合进行特征融合。
但是,我们现在所谓的大模型,从模型结构的角度看,并没有太大的变化。它仅仅是增加了模型规模。在某些应用场景中,实际上我们不需要那么大的模型规模。例如,在某些特定的意图识别任务中,只需要用到两倍或四倍于 Bert base 的参数量,就能取得显著的性能提升。
大模型开创了一条新路,表明在达到一定的模型规模和训练资源下,还可能出现新的能力。从成本的角度看,通用大模型和专用大模型是共生的。事实上,专用大模型可以利用通用大模型的输出结果。例如,现在数据质量和规模是训练大模型的关键问题。通用大模型可以辅助我们快速筛选和生成数据。通过大模型筛选出的高质量、小规模数据,可以用于训练更大的模型,以达到更好的业务应用效果。
张晗:首先, 就我们公司而言,今年我们不打算研发通用基础模型,尤其是基础千亿模型。原因有两个:一是国内许多公司在进行有监督微调时,即使模型达到了 90 分的水平,如果要进一步通过强化学习提高性能,通常需要数倍的算力,其成本非常高。
二是对于我们目前试验的自研百亿模型来说,我们认识到模型的训练不仅仅依赖于模型的规模,更多地依赖于数据规模和业务应用场景。不同的业务场景需求不同,有的可能需要上千亿的数据,有的可能没有那么多。
我们更加重视的是高质量的数据,相较于大量数据,它对大模型的意义更大。数据量越小,训练所需的资源和时长都会减少,这也是我们在研发效率上取得进步的原因。
此外,目前的训练技术,都可以有效地降低算力成本,甚至单卡即可训练百亿模型。从性价比角度看,百亿规模的模型的性价比确实非常高。明年,我们预计会投入更多资源在预训练技术和基座模型的研发上,探索更深层的应用。
张晗: 我主要分享两个方面:
第一,在迭代知识问答系统时,我们注意到市面上基于 Lang Chain 的 Document QA 项目非常多。如果我们直接应用,例如将我们之前的 Term 召回升级为向量召回,并依赖大模型的归纳总结能力进行问答生成,会遇到问题。当我们的知识检索体量庞大时,直接使用开源方案可能并不准确。因此,我们结合了传统的 NLP 特征提取技术。
第二,我们会对用户的问题和 QA 知识库中的问题进行扩写,以增强语义召回能力,从而解决大模型胡言乱语的问题,这帮助我们大幅度地提高了效果。值得一提的是,大模型通常无法理解业务中的某些规则,因此可能无法完整地完成销售动作。为了解决这个问题,我们采用了思维链技术,使百亿模型在中间过程中进行思考,例如收集客户信息,规划服务路径,并定义下一步的销售动作。这种方式使得大模型能够更好地遵循业务场景的特点和规律,从而有效地完成我们的任务。
张晗: 从技术角度出发,我认为通用模型的技术肯定可以覆盖专用模型。在效果上,通用模型完全有能力替代各个场景下的模型,但具体的时间线是未知的。尽管业务场景的数据很多都是私有化的,难以供大模型学习,但以 ChatGPT 为例,它已经展现出了相应的能力。我相信随着大家在产品上的应用逐渐增多,通用大模型的普及和覆盖是大势所趋。
但短期来看,尤其在保险行业及其细分业务中,通用模型暂时无法完全替代。因此,专用研发模型在中短期内仍会发挥其重要作用。
我预测,在未来的保险行业中,百亿级模型的专用模型会成为一个趋势。同时,大模型技术也将加速保险行业的转型,包括改变我们的经营模式,如代理人经营和人工智能应用等。我相信,随着技术的迭代,我们最终会朝向阳光保险董事长所说的“一台机器和一群客户”的科技愿景进发。
首届 FCon 全球金融科技大会将于 11 月 19-20 日在上海举办。本次大会已邀请到工商银行、招商银行、汇丰银行、兴业银行、中信银行、北京银行、平安人寿、度小满、蚂蚁集团等业界知名银行以及金融机构的大咖,前来分享大模型、 Web 3.0 、隐私计算、数字货币、区块链等前沿技术在金融领域的落地案例。
我们诚挚地邀请您加入我们,共同探索金融科技的未来,点击「阅读原文」即可查看全部演讲专题。
目前是 7 折特惠购票最后两天,报名立减 ¥2040,咨询购票可联系:17310043226(微信同手机号)。
微信扫码关注该文公众号作者