保举算法优化闲聊

ccbyoujian 发表于 2023-11-5 10:48

算法优化核心是要找到关键问题，而不是 follow 最新的模型。
比如此刻排序基本上都是用多方针模型，但你面对的业务场景真的需要多方针吗？
两种情况需要用多方针模型，一是业务确实需要考虑多个方针，二是业务只需要考虑最后一步转化，但曝光转化率太低了，样本也斗劲少，所以通过把漏斗中的其它方针加到模型中也许会对最后的转化预估有用。
如果业务场景没有这两种情况，又是刚开始接保举算法，使用单方针排序模型就是更好的选择。
之前的公司碰到的就是这种情况，业务斗劲简单，只用考虑最后一步转化，而且转化率和电商场景 ctr 对比也差不了多少。当时直接上的就是多方针模型，成果产物首页保举接保举做了一年多收益才10%，后来换成 DIN 后收益就又多了15%以上。
当然提升这么多还有此外原因，但一旦你用了多方针模型，你是不是还要调整多方针融合公式？是不是推理性能要求会更高？是不是要看看专家网络有没有问题？这些事情城市白白耗费你的时间。当简单的模型适合你时，必然要优先用简单的模型。
再举一个没找到关键问题的例子。之前的公司，当时算法主要在做排序，但当时线上80%流量都是热门召回，没一个人发现这个问题。此时关键问题就是定位为什么个性化召回流量这么少，后来发现是线上还没有向量召回，i2i召回虽然数量多，但主要区别是用了分歧的行为，而且触发次数做了限制。当时我就把业界常用的几个i2i召回上线，把触发次数限制去掉，再上了 DSSM 向量召回，提升幅度累计也有10%以上了。
虽然提升幅度没有排序多，但如果个性化召回流量就这么少，排序再怎么做，收益就是很低的。
再罗列之前碰到的一部门关键问题：

[*]向量召回、排序没用实时行为序列特征
[*]统计特征用等宽分桶导致特征值堆积
[*]召回没做场景适配，比如相关保举场景还在用猜你喜欢的召回
[*]多语言搜索召回率低
[*]有些国家节日多，模型T+1更新导致节日后消费数据下降
[*]有一些情况下同一用户对分歧item的 pctr 是同一个值
[*]模型方针和业务方针纷歧致
[*]Itemid hash 碰撞率太高
这类优化可以叫做问题驱动型优化，长处是基本上都能拿到收益。而 follow 最新的模型，收益确定性就太低了，可以在保举业务斗劲成熟或人力非常丰裕时测验考试。
下面罗列一些拿到过收益的非问题驱动型优化：

[*]排序模型加交叉特征
[*]排序模型加特征交叉模块
[*]人群精细化，个性化召回加上一层人群和item标签的匹配，或者热门召回分人群统计
[*]用户冷起优化
<hr/>封面：Photo by Paul Pastourmatzis on Unsplash

页: [1]

Unity开发者联盟's Archiver

保举算法优化闲聊