顺丰揭秘:大模型技术如何重塑物流供应链
物流与供应链系统的庞大规模、环节的复杂多变、数据的复杂性、场景的多样性,使得物流与供应链系统的建设和运行变得更加复杂。而大模型技术作为 AI 的一项重要成果,在物流供应链领域具有无限的潜力和广阔的应用前景,并在推动物流供应链领域数字化、智慧化变革中扮演着不可忽视的角色。
以下为采访正文~
高磊: 当前 AIGC 技术主要以文本、图片、语言、视频等模态为主,因此在这些信息相对富集以及以这些模态作为主要信息载体的领域更容易落地,比如售前的营销素材的生成,售后的智能客服,以及办公领域的 FAQ、信息摘要等场景。
但是我们所关注的供应链运营和决策优化领域中,如何利用大模型与其背后的技术去解决供应链运营过程中问题,提升决策质量和效率,帮助客户业务更好的降本增效,目前并未看到很好的行业实践和落地案例。我们结合对于大模型技术的理解与顺丰的业务实践,逐渐摸索出三个方向:
结合顺丰沉淀的业务 know-how 与已有技术能力,构建行业智能体,相关技术被应用于供应链智能控制塔产品中
突破文本、图片等模态的限制,构建物流决策大模型,让大模型技术直接作用于核心决策问题,相关技术被应用于供应链执行优化产品中
基于多模态大模型的能力构建多层级多通道需求预测模型,解决消费供应链领域中需求预测的难点与痛点问题,相关技术被应用于供应链计划产品中
高磊: 我们构建这个模型的初衷是为了解决消费供应链领域中商品蚕食效应、新品新店预测等业界难题。
首先,需求预测在供应链计划中非常重要,因为他是需求计划、供应计划、生产计划等诸多计划的源头,准确的需求预测对于提升计划准确性,提升供应链效率而言至关重要。但是需求预测本身难度很大,尤其是消费供应链,受到诸多因素的影响,比如新品上市、老品下架、蚕食效应、促销、节假日、季节、天气等。其中蚕食效应,新品和新店的预测一直是行业普遍存在的难题,传统的算法模型难以有效解决这些问题。
以商品蚕食效应和新品上市为例,比如某个门店一直卖 10 种蛋糕,平时所有蛋糕的销量总和是大约 100,然后某一天突然上市了一个新的蛋糕,并做了促销,那么这里会出现两个问题:1. 新蛋糕的销量该如何预测,2. 老蛋糕的销量会受到多大影响?
传统的需求预测模型从单一商品视角建模,在解决这两个问题上存在较大困难:在第一个问题上,因为缺乏历史销量数据,很难建模,往往预测偏差很大,在第二个问题上,单一商品视角的建模难以有效捕捉商品之间的关联关系与相互影响,在上新期间难以捕捉到蚕食效应造成老品系统性的偏高。
为了解决这些行业难点问题,我们设计了基于多模态大模型的能力构建多层级多通道需求预测模型,从特征角度,我们通过预训练好的多模态模型将商品的文字描述如商品名,商品描述,配料表,价格等和商品的图片提取为表征商品内在属性的 Embedding 向量。通过选择合适的多模态大模型,我们发现提取出的 embedding 能够很好的表达商品之间内在的一些相关性。
提取了多模态特征之后,为了更好的学习商品之间的关联性,我们设计了一种多层级多通道的需求预测模型。
这里解释一下层级的概念,消费供应链预测中往往存在多种层级,比如时间层级:日到月到年;空间层级:门店到 RDC 到 CDC;品类层级:具体的 SKU 到二级品类到一级品类,往往在各种层级上都要输出预测结果,并且层级之间的结果应该能够对应上,比如某个门店内所有商品的总销量预测应该等各个商品预测之和。
多层级多通道的需求预测模型能够很好地学习同一层级内的商品之间的内在关联性,以及层级之间的关联性,从而更好的得到预测结果。
高磊: 我们在某个实际客户的场景下做了测试,整体上,新的模型可以在预测准确性上提升绝对值 5 个百分点,这个是我们在传统方式下做了很久也没有难达到的程度。同时得益于多层级多通道统一建模极大的减少了模型的数量,以及 GPU 的使用,在计算性能方面实现了 120 倍的提升,对机器资源的需求也减少了 5 倍。
我们也着重验证了一下新模型在新品等场景下的预测表现,得益于多模态信息的引入与多层级多通道学习机制,新模型能够有效的捕捉到新品和老品之间的相关性与蚕食效应,可以在上新期间取得显著的的新老品预测准确度的提升。
高磊: 我们知道供应链运营是一个专业程度很高,并且非常严谨的领域,因为任何数据或者决策建议的错误都可能带来比较严重的损失。大模型本身存在一些固有的缺陷如不擅长精确数值计算,幻觉,专业程度不够高等问题,限制了其在供应链运营领域的应用。
比如前端时间公众号上有个比较火的文章,讲得是问大模型 9.11 和 9.8 哪个更大,绝大多数大模型都回答 9.11。再比如把过去一段时间的历史销量和库存数据丢给大模型,让它去做库存优化,大模型也很难去做这种专业的事情。为了解决以上问题,我们的解决思路是结合大模型和专业小模型,以及顺丰多年沉淀的供应链实践,去构建供应链的行业智能体。
具体来说,我们通过 RAG 技术结合我们沉淀的业务知识库,让大模型具备更深入的供应链知识,同时我们将丰智云体系中沉淀的各种算法能力,比如预测、仿真、运筹优化、归因分析等,抽象成工具并交给大模型调用。由此构建出具备供应链行业知识的业务专家智能体与以及具备专业算法能力的算法专家智能体,并通过这些智能体的协作,去服务具体的业务场景,如销售分析,库存优化等场景。通过以上方式,可以有效的改善和缓解大模型在供应链场景下存在固有缺陷。
高磊: 我们知道在供应链控制塔中,有一块很重要的能力是供应链诊断与分析能力,传统方式下,我们需要建立大量的报表来呈现业务指标与各种问题,但是这种形式是相对静态的,当出现新的场景和问题的时候往往还是需要手动获取数据、分析数据或者开发新的报表,难以敏捷的响应新的需求。
另外,从数据分析角度来看,大致存在 3 种类型的分析:
描述性分析:对数据进行整体概括和总结,以了解数据的基本特征和趋势,形成对业务现状的整体认识
诊断性分析:通过深入挖掘数据的背后原因,解释数据异常或变动的原因,并为问题提供决策依据
预测性分析:利用历史数据和模型来预测未来事件或趋势的发展,为决策提供先见之明
目前传统的控制塔还是以描述性分析为主,在诊断性分析和预测性分析方面提供的支持较少。
通过将供应链智能体融入到丰智云塔产品当中,通过多个智能体的协作,针对履约、库存、销售等领域的问题,提供从指标查询与分析到异常识别与归因再到提供优化建议的完整的服务支持,从而为客户提高更敏捷与高效服务。而在这些服务的背后,智能体利用的是成熟、专业的预测、仿真、运筹优化等模型工具,来确保输出结果的准确与可靠。
高磊: 我们知道语言大模型是一个通过 Transformer-Like 的架构,利用自回归的形式进行文字序列生成的模型,而很多人不知道的是物流中的很多问题,其实也可以认为是一个序列生成或者说是序列决策的问题,比如去 3 家门店 a、b、c 送货的一个路径规划问题,可以认为是一个决定先去哪,再去哪,最后去哪的序列生成问题。再比如装箱问题,10 个物品要装到箱子里,也可以认为是一个先装哪个物品,并以什么样的姿态装进去,再装哪个物品这样的问题。
所以,本质上,物流中的很多问题和语言生成的问题一样,都是序列生成的问题,因此均可以采用相同的技术架构来解决。这是他们相同的地方。
不同的地方显而易见,就是模态的不同,不同于语言模型生成的是文字,物流决策模型生成的就是决策本身。另外不相同的点是目标不同,语言模型的目标是生成文字的合理性与有效性,能够符合语言规律并有效解决用户的问题。物流决策模型除了生成决策要合理外,还有优化目标在里面,比如生成的线路成本越低越好。
丛技术角度来说,我们知道语言大模型本身基于两大关键技术,Transformer 和 RLHF,其中 Transformer 在很多算法场景下的成功应用已经充分证明了其能力的强大,而 RLHF 技术因其解决了人类价值观与偏好对齐等问题,将大模型的实用程度推上了前所未有的程度。在物流大决策模型中,我们也是基于这两大技术进行了构建,以路径规划场景为例,通过 Transformer 架构并结合顺丰海量的场景以及规划数据,构建了路径规划的基座模型,并通过 RLHF 技术来解决与业务偏好和具体业务场景对齐的问题。
高磊: 总体来讲物流决策大模型带来两方面的显著优势,第一个是计算性能方面,传统的运筹模型主要基于搜索的机制,在一定引导下在一个巨大的解空间里面尽可能的搜索较好的解,当问题规模变大,解空间指数级别增长时,往往搜索到较高质量的解需要相对较长的时间,而物流决策模型基于序列生成的方式,在训练的较好的情况下,能够快速将较高质量的结果直接生成出来,再经过 GPU 高速并行计算的加持,能够很快的得到结果。
以我们实际鲁多的某客户装箱优化场景举例,目前我们可以平均 20ms 的时间内计算出一个使用传统运筹方法需要 10 分钟才能计算出来的订单,并且得到的解还能略微超过传统运筹方法。
另外一方面的优势来自于 RLHF 微调技术,通过 RLHF 我们可以让我们的模型有能力学习到业务在特定场景下的业务偏好与特殊需求。这将我们的产品在面对业务变化与新的算法场景时候可以从定制开发方式转向数据驱动的方式。
具体来说,在传统方式下,当业务变化或者新的场景出现时,我们需要我们的算法工程师不断的和业务沟通并理解业务,然后设计针对性的算法,并做很多 POC 试验,输出结果给到业务进行验证,往往这个过程会反复很多次并持续很久,因为往往业务无法将所有影响因素和潜在的业务规则一次性说清楚,很多时候碰到问题才解决问题。
使用 RLHF 微调技术,我们可以以数据驱动的方式解决很多问题,当输出结果不满足业务预期时,用户可以自己对结果进行调整,我们的产品会记录调整过程,逐渐积累业务偏好数据,并使用业务偏好数据不断进一步优化我们的模型,使输出的结果越来越符合业务实际需要。
当然这里面需要额外考虑的问题是并不是所有的业务调整或者业务偏好都是合理的,因此我们在产品里面设计了偏好与优化效果之间权衡机制,用户可以自己调整更偏向于“像人”还是优化。
高磊: 以上三个工作是目前我们决策大模型技术在供应链管理中的应用方面进行的初步探索,我觉得还远远没有完全发挥出大模型技术的所有潜力,也还有很多潜在的应用场景没有被挖掘,我们希望能够和业界的生态合作伙伴与友商一起,持续深耕这样一个领域,为提升供应链的数智化水平、实现行业共同进步方面添砖加瓦。
高磊, 顺丰科技人工智能总工程师,拥有 10 年 + 机器学习与运筹优化算法经验,研究方向为 NLP、运筹优化、强化学习等。2016 年加入顺丰,现任顺丰科技人工智能总工程师,曾主导顺丰集团内部多个数智化项目的研发与落地工作,涉及领域包括业务量预测、陆运干支线规划与调度、航空规划与调度、运力规划、场站选址、物资调拨等。目前主要负责集团智慧供应链体系建设相关工作。期间带领团队获得十余项发明专利,中物联物流技术创新奖、CCF BDCI 一等奖、最具商业价值奖,运筹帷幄年度行业实践奖与学术应用奖等荣誉。
AI 应用开发正在逐步成为各行业内的核心创新驱动力,CUI 式的对话助手、串联业务流程的 Agent 或是内嵌在原有业务逻辑中的 AI 模块,都在不断拓展面向用户的新应用场景。我们惊喜地看到从中小创业公司到大型企业,都在利用计算机视觉、自然语言处理、个性化推荐、对话式交互等 AI 能力提升业务效率、优化用户体验,显著增强了产品的市场竞争力。10 月 18-19 日,来 QCon 全球软件开发大会(上海站),了解更多成功应用 AI 技术的案例与最佳实践。
在这个智能时代,AI 技术如潮水般涌入千行百业,深度重塑生产与生活方式。大模型技术引领创新,精准提升行业效率,从教育个性化教学到零售精准营销,从通信稳定高效到金融智能风控,AI 无处不在。它不仅是技术革新的先锋,更是社会经济发展的强大驱动力。在 AI 的赋能下,我们正迈向一个更加智能、便捷、高效的新未来,体验前所未有的生活变革与行业飞跃。关注「AI 前线」公众号,回复「千行百业」获取免费案例资料。
今日荐文
你也「在看」吗?👇
微信扫码关注该文公众号作者