Redian新闻
>
业务问题,如何用算法模型来解决

业务问题,如何用算法模型来解决

公众号新闻

关注并将「人人都是产品经理」设为 ★ 星标

每天早上更新,与你一起成长

策略产品当中涉及到大量算法模型的应用,比如召回,排序策略的设计,除了规则逻辑之外,算法模型是很多体量比较大的业务必备的。所以有必要跟大家聊一下实际工作中,我们是如何利用算法模型来解决业务问题的。了解这些也有助于大家熟知算法工程师的工作流程大概是什么样的,降低沟通成本。


算法模型解决业务问题整体上可以分为如下几步,接下来我将分别讲一下每一步具体做点什么。

问题定义

不能为了上模型而使用模型。

所以首先,我们需要明确我们要解决的问题是什么?

问题可以是具体的用户需求,比如:用户希望看到自己感兴趣的商品排到前面;也可以是目前业务面临的问题,比如:目前平台GMV渗透率高的品类曝光流量不足,这些其实都是问题。但是对于使用算法模型来解决的话,关键点在于如何把这个问题变成算法模型能理解,能解决的问题。

因此这里面必然涉及到一个如何从感性的问题描述转变为一个可以让模型去理解和预测的问题。

这就到了第二个环节:问题建模。

问题建模

问题建模的关键其实就两个:业务指标定义和模型预测目标定义。

业务指标定义即根据当前业务核心场景去定义核心业务指标,这块涉及到一些数据指标体系搭建。

模型预测目标主要用于根据该目标去设定模型的收敛目标,也就是模型要预测什么,输出什么值。典型的比如ctr预估,实际上就是输出了ctr这个值。

在问题建模阶段,还有两个重要的事情:样本选择和交叉验证。

简言之,我们从原始数据(日志)当中选择跟当前模型预估指标相关的样本,然后把这些样本分为训练集和测试集,然后通过交叉验证的方法对模型进行训练和评估。

这块不得不提一下关于模型评估的指标。指标的分类有很多,最常见的其实就是准确率、召回率、AUC曲线等,包括常见的NDCG是对排序模型的衡量关键指标。

特征工程

完成了问题定义和问题建模,接下来就进入了很关键的特征工程,从大量的数据当中进行特征抽取,核心目的是为了将特征输入给模型,让模型从数据中学习规律。

最为关键的是下面这张图:

第一点好理解,特征是为目标服务的,因此选择出来的特征必须能够表征目标;

第二点的意思是这个特征要在不同的物品之间有相当明显的差异。比如销量,有的高,有的低;评价,有的是100%好评,有的是80%好评,这些都可以称之为特征。

但是,如果你们业务的基本上99%的物品好评率都在100%,那基本上这个特征就不用加了。

有差异才有区别,有区别才能作为一个决策的因素。

什么情况下我们需要进行特征选择?

训练数据包含许多冗余或无用的特征,移除这些特征并不会导致丢失信息。其中冗余是指一个本身很有用的特征与另外一个有用的特征强相关,或它包含的信息能从其它特征推演出来;

特征很多但样本相对较少,也就是某一个维度的信息数据量太少,覆盖度较低。

关于特征选择的4个步骤:

以下是模型特征选择的4个步骤,策略产品经理以了解为主:

  1. 产生过程:产生特征或特征子集候选集合;

  2. 评价函数:衡量特征或特征子集的重要性或者好坏程度,即量化特征变量和目标变量之间的联系以及特征之间的相互联系。为了避免过拟合,可用交叉验证的方式来评估特征的好坏;

  3. 停止准则:为了减少计算复杂度,需设定一个阈值,当评价函数值达到阈值后搜索停止;

  4. 验证过程:在验证数据集上验证选出来的特征子集的有效性。

模型选择

当我们把上面的事情确定之后,接下来就到了关键的模型选型的环节。大家都知道,具体的算法模型其实有很多种,不同的模型有很大差别,使用场景不同,能够处理的特征也有很大差异。

比如对于协同过滤,常见的usercf和itemcf两种,还有一些基于两个基本的协同过滤模型的变种,比如i2i,频繁二项集等。那我们就需要思考什么样的场景比较适合usercf,什么样的场景比较适合itemcf。

另外,虽然这些模型都能做到根据用户行为数据去进行个性化推荐的目标,但是具体的落地过程其实是大相径庭的。当我们经过特征工程得到一份高质量的特征之后,还需要考虑哪个模型能够更准确地从数据中学习到相应规律,从众多模型中选择最佳的模型。

模型融合

正如上面说的,其实不同的模型有不同的应用场景,所以一般线上通常是含有多个模型,最大化利用每个模型的优势,进而达到目标收益最大化,而模型融合以后得结果其实就是线上最终展示出来的结果。

以上就是关于算法是如何解决业务问题的介绍,希望大家能够明白一点,不要为了用算法而用算法,也不要认为算法就一定能更好的解决问题,关键点不在这,而是基于业务的实际情况去决定到底使用算法还是规则,使用什么样的算法。

题图来自 Unsplash ,基于 CC0 协议


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
农忙时节“用工荒”?架一座“桥”来解决机器人可“自我学习”!谷歌DeepMind发布首个机器人算法模型,“潘多拉魔盒”打开了?【竞赛招新】第15届国际航空法模拟法庭竞赛选手招募公告20200629 《天涯客》定妆照发布国税局官员亲自告诉你:如何在美国开办企业?如何注意税务问题?67个主题,11528 个问题,全新中文大模型多任务基准CMMLU发布我们的体验为何独一无二,无法模拟 | 赠书帮助员工解决问题,而不是成为员工的问题我不懂这精神内核和诡异画风非美国人在美投资必看!常见税务问题解析总分第一,算法模型第一,行业覆盖第一!国际权威测评文心大模型3.5一举得魁,独占鳌头公安部新闻传媒中心揭牌你用ChatGPT解决过业务问题吗?他帮你做好教程了叔叔的问题,阿姨的问题,还是谁的问题以后,卷起来解决更贵的问题吧100万悬赏AI界喜剧之王!北邮、南洋理工等发布「沙雕视频」数据集FunQA:用算法学习人类幽默第十七届红十字国际人道法模拟法庭竞赛选手招募公告大模型战事中场:AIGC时代的企业,如何用AI原生应用乘风破浪?深圳内推 | IDEA数字经济研究院招聘算法研究员、NLP/大模型算法实习生“痛苦来自于发现问题,快乐来源于解决问题” | 峰瑞第5期Open Day回顾iPhone15被投诉发热严重,多人曝光被烫伤;李嘉诚盖茨联手中东财团,投资氢电飞机;亚马逊被指利用算法抬高商品价格丨雷峰早报谷歌赶超 GPT-4 之路:用算力猛怼?判断问题是否真的需要大模型来解决那曲久远的音乐苹果将在法国发布更新解决辐射问题,腾讯成为亚运会转播商,天猫精灵拟更名并接入大模型,2K成为差评榜一,这就是今天的其他大新闻!【外汇商品】巴黎俱乐部简史及运行机制——发展中经济体债务问题之一针对按摩座椅经营服务问题,铁路部门发声木心与陈丹青在美购房,不同产权持有方式下的税务问题​|新移民财税规划 2023系列课快来听国税局官员亲自说法,如何在美国开办企业,以及您最关心的税务问题,都在这里——【外汇商品】巴黎俱乐部主权债务重组条款详解——发展中经济体债务问题之二剑指AIGC车载应用算力之殇,这家企业为何能拿下“全球首个车规级”?全面注册制下IPO税务问题如何自查?我们罗列了这69项重点0基础如何用AI解决各种问题?看这本书就够了!VR游戏周报 | 舞蹈游戏《Dance Dash》上线Steam,书法模拟器《墨之韵》登陆PS VR2
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。