Redian新闻
>
4人团队,如何用大模型创造近千万业务价值?

4人团队,如何用大模型创造近千万业务价值?

公众号新闻

采访嘉宾|张源源 百姓车联数据科学与数据平台高级总监
编辑 | 李忠良

大模型已经融入千行百业,在这个背景下,LLMOps 作为一种新概念,其定义、实践以及应对挑战成为了关注焦点。为了深入探讨 LLMOps 的意义和关键,我们采访了百姓车联数据科学与数据平台高级总监张源源,他分享了 LLMOps 在车损互助案例中的应用以及所面临的挑战与解决方案。以下是他的访谈实录

InfoQ:现在其实大家 MLOps 都还没有搞得特别好,马上就出来了 LLMOps,当然也就没有特别标准的定义,在您看来 LLMOps 如何定义?它包含哪些内容?LLMOps 与 MLOps 您觉得两者较大的区别是什么?

张源源:这次 AICon 分享的第一部分,就会给出我对这部分的理解。简单来说,如下图所示。


● MLOps 用于管理 ML 应用的全生命周期,包括数据收集和处理、模型的训练、评估、部署和监控等,虽然会涉及跟多个工种打交道,但相关产品主要使用对象是从事 ML 算法开发工作的人员,比如 data scientist、算法工程师等等。

● 关于 LLMOps,我这里先提供三种对 LLMOps 的三种视角,通过比较这三种视角,可以更好了解 LLMOps 是啥。

● 一种视角认为 LLMOps 是 MLOps 在 LLM 场景下的直接迁移。主要使用对象还是算法工作人员。这种视角里认为的 LLM 全生命周期更多还是强调训练大模型的过程,对有了大模型之后如何做应用,其实覆盖的比较少。这种视角在某些之前对 MLOps 有过了解甚至投资过但对 LLM 应用开发没那么熟悉的 VC 那里很流行。

● 另外一个知名项目 LangChain 提供了不一样的视角,它推出了号称是 LLMOps 的 LangSmith,它更多关注有了大模型之后如何开发大模型应用。可以从他们的产品设计理念里非常关注实验管理等等相关 feature,有很强的 data science 思维,但目标客户已经不局限为算法工作者,很多业务开发者借助它已经能很高效的完成应用开发。

● 作为当下世界范围内风头最劲的 LLMOps 之一,也是我们国内开发者做出来的良心制作,Dify 同样更多关注有了大模型之后如何开发大模型应用的问题,但目标客户主要是无代码、低代码群体。

● 通过后面这两种视角,其实可以看出 LLMOps 不应只是 MLOps 在 LLM 场景下的直接迁移。有了这三个视角的铺垫,其实通过直接对比 MLOps 和 LLMOps,容易给出更符合我们认知的 LLMOps 定义。

    ○ 从覆盖流程上说,对于 MLOps 来说,开发模型和模型应用往往是等价的,模型上线往往等于模型应用上线,想象一下各种推荐算法的开发和上线过程,但是对于 LLMOps 来说,开发 LLM 和后续的模型应用是分离的,都不是一波人,甚至都不是一个公司的人,开发 LLM 和模型应用在技术栈上迥异。 

    ○ 从目标人群上说,对于 MLOps 产品来说,因为开发模型和模型应用都是同一批人,它的目标人群就是算法工作人员,对于 LLMOps 产品来说,开发模型相关的 LLMOps 的目标人群仍然是算法工作人员,但模型应用相关的目标人群就丰富多样了,除了算法工作人员,无代码、低代码偏好人群、业务开发人员也是他们的目标人群。  

    ○ 从产品形态上说,也是类似,MLOps 和以开发模型为主的 LLMops 产品形态主要是 SDK/Library/API 等易于已有技术栈集成的方式,而模型应用相关的 LLMOps 增加了拖拉圈选等无代码操作。 

    ○ 所以基于前面分析里提到的开发 LLM 和后续的模型应用是分离的事实,我们就给出了 LLMOps 合理的定义,即 LLMOps= 开发模型 LLMOps+ 模型应用型 LLMOps。开发模型类 LLMOps 往往有另外一个名字 AI infra,更多关注大模型训练过程的效率、效果等问题。模型应用类 LLMOps 更关注有了 LLM 之后,如何开发 LLM 应用。而开发模型类 LLMOps 其实也跟前面 MLOps 产品遇到的商业上的问题一样,可能会遇到有很多定制化需求而需要用到的公司往往会自研的问题,当然因为当前相关领域人才供给严重不足,不是所有公司都有这样的能力,还是有不少机会;但对于模型应用类 LLMOps 来说,受众很广,也能解决当前应用落地门槛高的痛点问题,如果能聚集起大量的开发者,有了网络效应,是有很高的商业价值的,甚至可以成为大模型的分发入口。特别需要指出的是,在接下来我分享的 context 下,我们所说的 LLMOps 是后者,也就是更多关注模型应用这块的 LLMOps。

LLMOps 在车损互助行业的应用案例

InfoQ:在哪些环境中,车损互助使用到了大语言模型?

张源源:车损互助全流程都在使用,每一次深入跟业务侧沟通需求都能感觉到可以用大语言模型解决很多业务问题,下面这张图是我们 3 个月之前的规划。我们也做了大量创新的工作,比如我们产品负责人之前发表过一篇我们用大模型去解决准入报价里 VIN 匹配的问题,当时在圈子内引起了一个小轰动,很多人都跟我打听是怎么做的;

再比如,我们规划了用大模型去做智能理赔定损 agent,通过几张照片和报案信息,就能给出来带价格的维修单,会涉及非常多大模型能力应用的子问题,很多人都对这块非常好奇也非常好看,这个对汽车维修行业来说带来的影响非常大,如果能做好,预期创造的业务价值非常高;

还有,我们最近搞得 text2data 工作,如果你之前对 text2sql 有过了解,你会发现这个工作从原理上就比 text2sql 靠谱非常多,通过我们在埋点、ad hoc query 方面的落地实践,可以说对于真实场景的取数需求来说,可以说已经完全不需要工程师介入了,我们自己的数仓工程师做完这个项目就自己说感觉数仓这个职位要不存在了。

我们最近也想到了其他更多应用场景,比如用 phone agent 去帮忙做第一轮面试筛选、服务质量反馈、用户报案问题收集(不仅仅通过 chatbot,还是有很多用户习惯用 phone 去报案)。

InfoQ:您可以分享下,您这边采用的基础模型是什么吗?

张源源:我们一直是选择最好的模型,根据特定的场景选择特定的模型,比如大多数时候选择 GPT4,在代码生成相关的使用 Claude3,我们也是评测和对比了很多选择。在现阶段我们场景里,推理价格不是我们优先考虑项,效果是最优先考虑的。

InfoQ:在哪些场景中使用了 LLM?如何引导大语言模型输出您期望的结果?

张源源:场景如上图,在车损互助的准入报价、理赔定损、日常运营、内部提效等等场景都有应用。在引导大模型输出期望结果这块,我们最重要的经验就是确定性的交给确定性的去做(比如能调用 API 搞定的就直接调用 API,比如多用 workflow,把 zero shot 调用大模型,拆解成多个确定性节点和几个调用大模型的节点),剩下的才交给大模型;另外一个经验是,团队一定要有有实验思维、懂数据科学的人,才能把这个事情真正做好。

InfoQ:如何评估大模型的回应呢?是好的还是坏的?

张源源:首先去看自己的 task 是不是已经有 benchmark,比如你搞的是翻译类任务,这种肯定有很丰富的 benchmark,直接去看模型在这些 benchmark 上的表现,或者去关注一些大模型的 technical report 以及 lmsys 等的 leaderboard,当然除了这些,还可以自己构建评测集合,让领域专家或者大模型本身帮你标注这些结果好坏,这个时候类似 Dify 这样的 LLMOps 就提供了非常好的标注回复功能,能提供很好的支持。当然,这也是我上面说的,团队一定要有有实验思维、懂数据科学的人,他好去设计实验 pipeline,以及评测模型和各种配置的好坏。

InfoQ:底层 API 模型的持续变化会对输出结果的影响也是非常大的,如何处理这些情况呢?

张源源:无他,就是做实验,在 benchmark 和自己的评测集合上做实验,根据效果好坏来决定是否切换。

InfoQ:除去输出的期望问题,还有哪些挑战是您这边遇到的?又是如何解决的?
张源源:总体来说,遇到的挑战还好,哪里不会学哪里,比较享受这种遇到问题就解决问题的感觉吧,如果非要说挑战,主要有两个吧,一个是 RAG 这部分,现在市面上的方案还没有达到预期,核心我觉得是当前是工程的人搭起来架子,但是对效果提升有帮助的算法相关人才跟进还不够以及还没有整合到主流工程里去,这部分也呼吁更多信息检索相关的人杀入这个领域,机会很大,低处果实也很多,另外一个更大的挑战就是一直要 catch up 最新进展,有太多东西需要深入学习和 research,时间总是不够用的感觉。
InfoQ:在搭建与使用 LLMOps 过程中,您这边一共有多少人参与?为团队带来哪些收益呢?

张源源:据我们内部初步估计,各个场景第一年创造的业务价值预计近千万,这还是考虑我们第一年用户量不够大、很多合作伙伴 API 还没有如期接入的情况,而且有很多用户体验方面的价值无法用金额直接衡量,我们公司是志在用 AI 作为核心竞争力在海外做一款颠覆性的车损互助产品。拿到这个业务结果,背后主要是三点,第一就是我们对大模型的认知足够,第二就是对业务场景问题深入去思考,第三就是借助 LLMOps 让我们低成本做实验和验证,整个过程,核心参与人员就四五个人。

安全性和合规性问题

InfoQ:鉴于车损互助行业可能涉及到用户个人信息和交易数据等敏感信息,您是如何确保模型对这些信息进行合规处理的?

张源源:我们目前的应用场景还没有太多涉及,有一两个场景里有这种问题,但是也不严重,也就是用户上传车损照片,这些都可以通过免责申明加上产品手段去解决,也就是说在用到大模型之前就解决掉了,尽量不在大模型这里进行解决。

未来的发展方向和预测

InfoQ:随着技术的不断发展,您对 LLMOps 的未来发展有何预测?比如在模型自动化、自适应性、实时性等方面的进展。

张源源:这部分在分享里也会涉及,应用类 LLMOps 主要在解决降低门槛、提高可集成性、提高可观测性、提升效果和效率这几个问题。

● 在降低门槛方面,当前以 Dify、Coze 为代表的应用开发类 end2end 的 LLMOps 极大的降低了普通人开发 LLM 应用的门槛,意义重大,甚至因为这一点,LLMOps 现阶段的流量入口价值和分发价值都被低估了。

● 在提高可集成性方面,通过 API 把 LLM 应用作为整体跟其他系统对接的方式还不够,还需要节点级别的对接方式,workflow 的 http 节点有一定帮助,但还不够,比如往往没有全局 memory。当前主流 LLMOps 更多思考的是新创建的应用,但市面上更主流的应用场景是需要跟已有系统进行集成,提高可集成性能极大提高 LLMOps 的上限。

● 在提高可观测性方面,当前 LLMOps 做的还不够好,比如很多还不支持版本控制,tracing 做的也不够好。

● 在提升效果和效率方面,当前 LLMOps 做的也还不够,效果和效率其实也是在落地过程中,用户最在意的点,但大模型的自身能力缺陷在没有正确使用大模型经验的普通人那里被放大,导致大模型落地差强人意。期望 LLMOps 能够对于有能力的人,提供更多集成其他优秀解决方案的机会,甚至这本身也是商业机会。对于没有能力的人,应该提供更好的经过广泛证明的默认选项。

 嘉宾介绍

张源源:百姓车联 AI/Data 方向负责人,中国人民大学校外导师,中国商业统计学会常务理事,数据科学社区统计之都常务理事。长期跟踪 AI/Data 方向前沿技术发展,发表了多篇 AI 方向顶级 Paper,有多项相关专利;在百度、阿里、百姓车联等多家赛道内头部公司有过行业内开创性的工作,在 AI/Data 方向有超过 10 年的积累。目前正在百姓车联带领团队开发车损互助行业首个基于大模型的智能车损互助系统。

 活动推荐

张源源将在 5 月 17 日的 AICon 大会上分享他对 LLMOps 的详细实践,我们诚挚邀请你前来现场交流。除了张源源讲师,我们还有更多的重量级嘉宾和话题。您可以扫描下方二维码了解更多信息。AICon 全球人工智能开发与应用大会,以及大模型应用生态展·2024 是由极客邦科技旗下的 InfoQ 中国主办的技术盛会。本次会议主要针对工程师、产品经理和数据分析师,聚焦于大模型训练与推理、AI agent、RAG、多模态大模型等热门领域。

 活动推荐

AICon 全球智能开发与应用大会 暨 大模型应用生态展将于5月17日正式开幕,本次大会主题为「智能未来,探索AI无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

会议即将开幕,扫描上方二维码可预约主题演讲直播,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。


今日荐文


26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要


老便宜了!字节跳动豆包大模型开始营业,一元钱能买125万Tokens,月活用户量达2600万

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型


零一万物发布千亿参数模型、海外产品收入将超1亿,李开复:我10年不套现

你也「在看」吗?👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
开源大模型火了!(附99个大模型微调模型/数据/工具)!识别细胞也能用大模型了!清华系团队出品,已入选ICML 2024 | 开源4北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事OpenAI将重新启动之前被放弃的机器人团队;腾讯:现在大模型能力远达不到高频用户需求,渗透率还不足丨AIGC日报Sora问世,如何用大模型反诈?这个环境下,如何体现数据分析的价值?4人团队找到“流量密码”?Steam大卖100万套后,手游版月下载破千万大模型创业淘汰潮开始了:这是第一个估值10亿美元的祭品5“百模大战”周年考|国内大模型盘点:305个大模型发布,备案率约四成,如何寻找变现、破局之路大模型应用商业化落地关键:给企业带来真实的业务价值独家丨周鸿祎x朱啸虎:没10亿美金闲钱,别碰通用大模型3情绪价值是什么价值?大模型如何用于游戏?游戏玩家代理与大模型综述:方法、应用与挑战《是否还和过去一样》&《我等的是你》李开复提出「PMF 不再适用大模型 AI-First 创业,要追求 TC-PMF」,如何理解?给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力GPT-4o 该如何用,才算发挥出它的价值?| 极客时间26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要6【首发】深智透医完成B+轮近千万美金融资,业务额连续三年翻倍增长邀你探索金融、教育、法律及医疗行业的大模型创新应用,AICon 2024 即将拉开帷幕奥特曼挂帅新团队,OpenAI新一代大模型开训,前任高管却「投敌」了与思想者共鸣,与创造者共舞 | 混沌学园五期为认知型创业者而来对话李开复:这次大模型创业,我十年都不会变现大模型创业淘汰潮开始了:这是第一个估值 10 亿美元的祭品今日arXiv最热NLP大模型论文:又到美国大选年,南加大教你如何用ChatGPT影响竞选华中科技大学生命学院张珞颖/薛宇团队利用大型语言模型助力解析睡眠等群体活动的分子特征【首发】天鹜科技完成数千万元Pre-A轮融资,加速蛋白质工程通用大模型商业落地AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型大模型如何用因果性?最新《大型语言模型与因果推断在协作中的应用》全面综述
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。