mabao 发表于 2024-6-24 23:14:08

工业界推荐的本质:候选池和用户满意度的关键作用

很多人会有一个误区,即推荐就是CTR预估,这也是好多博客/模型/比赛给你们带来的误区,我们明天详尽说说工业界的推荐。

用一句话来解释推荐的本质:在候选池集合中,挑选出用户最满意的一部分物料诠释给用户。

虽然看起来很简单,但是实际上这句话就可以指导我们做任何事情。大家可以看见我有两个关键词加粗了,接下来我们详尽来谈谈。

第一点是候选池,即要做好推荐这件事,最最根本的不是预估模型,而是你是否有足够优质的候选物料。对电商而言,是多样/高质/高性价比的商品;对抖音而言,是好玩有趣的视频;对网易云而言,是丰富的歌曲库等等。而这也是最容易忽视的部份,以网易云为例,如果没有歌曲的版权,再好的推荐算法又有什么用呢。可能有人会说,那买版权就好啊,跟推荐算法工程师有哪些关系?

当然有关系了,以抖音为例。抖音是ugc特别强的一款产品,候选池数目是否足够多,视频质量是否足够好直接影响推荐疗效,所以我们要用算法来服务作者。一方面我们要在作者侧做特别多的数据剖析和冷启动模型,试想假如冷启动做得不好,作者发文浏览量太低,根本就不会有兴趣发视频,即设计算法提升作品冷启的成功率->让高质内容迅速高烧。另一方面,算法是否可以指导用户发文呢,比如给一位瑜伽的人推荐了点赞量好多的‘双力臂’的短视频,用户听到后发觉这个自己也能做啊,可能自己也会尝试拍一下视频并上传,即设计一个高贵的算法/策略提升用户->作者的转化。为了做好作者侧的事情,还有内容理解、作者等级界定等,每一个点都有特别多的模型和策略可以尝试。

第二点是最满意。很多公司还会把重心放到ctr预估模型auc提高上,但这显然并不正确,因为满意度虽然非常的具象,点击并不意味着满意。举一个反例,用户在西瓜视频上看见标题党+有趣的封面很大几率点进去,但是进去就发觉自己受骗了,10min的视频看了1min就退了,很明显其实用户有点击行为,但是此次行为并不满意。那么用逗留时间怎样呢,如果视频用户听到了最后,总能说明很满意了吧。不好意思这也不对,比如有的视频评论第一条是“我以为***,结局把我脸打碎了“,看到这个评论好多用户就会坚持看完,但是看完以后认为这视频拍的真烂,然后点了一个举报,虽然staytime很高,但是显著用户也不满意。

http://www.qianxianly.com/data/attachment/forum/20240624/1719242048518_0.jpg

所以,我仍然认为推荐算法工程师比起模型能力,更重要的是业务sense和目标拆解能力。以快手为例,团队的终极目标不是ctr也不是staytime,而是DAU。DAU是最能彰显用户满意度的指标,但是没有任何一个人可以对DAU建模,因此要拆解成多个可以量化的中期目标(比如存留)和短期目标(比如ctr)。问题的拆解须要业务sense,短期目标则依赖于模型+特征,多个目标怎么加权组合又涉及搜参,可做的事情太多了。

怎么评估推荐算法的疗效

这个问题特别有趣也十分核心,主要从三个方面聊聊。

用哪些评估

答案是指标,推荐虽然是很虚的一件事,我们组里常常会让你们把自己加到实验组里瞧瞧推荐的疗效,对我来说可能很难判断究竟此次推荐的和先前比那个好,实在太主观了。所以指标是必须的,指标主要有离线和线上两部份,可以十分明晰的告诉你们,线上就是一切!无论你离线多牛逼,一切的利润都只看线上的疗效,因此精细化设计的指标+完善的实验平台就十分重要。学生最大的误区可能是自己看离线auc提高了就认为很牛逼,接着就想着发论文了。但是工作中,尤其是推荐算法,应该是离线提高->线上开实验(如何设计实验和指标博大精深)->AB(AABB)结果->反转实验等后续实验。只有一套流程仔细思索而且都有疗效,才能算是一个成功的模型策略。指标提高就结束了吗

还差得很远,我越来越发觉,一个优秀的业界推荐算法工程师,最核心的竞争力绝对不是做一个模型/策略提高指标,而是无论实验成功与否,都还能剖析深层的缘由,从实验中开掘人性的特性,并剖析找到通用化的解决方案。而这一方面是工作中要注重,另一方面是多看他人的剖析角度。这一点真的给字节点赞,我实习过5家公司,这是第一家每周都做公开launch review的公司,分析利润的真实来源、流量的去向、多出少出的区别、目标用户思索、todo剖析的特别深入指标提高就一定对吗也不一定。其实在上文中我们谈到了,虽然每位产品因为其定位不同可能略有差别,但总体上我们可以觉得终极目标是dau。为什么我说指标提高可能是错误的呢,我觉得有两个主要诱因。第一,dau是一个特别常年的目标,但是我们的实验一定是短期指标,而因为dau拆解并不一定正确,短期指标的提高并不一定带来常年dau的提高。比如标题党多了,虽然短期ctr指标下降,但是常年来看存留一定会掉,因此我们要做诸如情色辨识、标题党打压等工作,虽然指标降了,但整体一定是好的。第二,为了提高产品的天花板,可能要做一些牺牲指标,但是常年来看有利润的事情。比如最早快手就主打三四线小城市,产品设计和内容十分low,但是三四线一定是有用户量天花板的,而在冲击一二线大城市的过程中,由于用户分布和喜好的不同,为了照料一二线人群,快手商品池一定会从粗俗迈向有趣和高档,算法也须要改变。这样的话,短期内所有实验可能还会出现掉存留、CTR等现象,但是常年来看是牺牲曾经小部份用户,换取更大的机会。 模型解决不了的,上规则不就好了?

先说推论:不行!!!

首先我们要认识到,人的逻辑是有局限和先验的,而这并不一定正确。如果数据量足够,我们要相信推荐系统一定比人推荐的准。但是实际上可能有好多的bad case,对于这些情况我们要详尽的剖析代码问题,入职以后主管跟我介绍过火山、西瓜近两年来一些典型的bad case是怎样解决的,最终都是可以归因到代码/模型/数据上(当然有能力归因下来,都是大鳄)

那策略、boost、强插之类的做法有哪些问题呢?短期来看就是打补丁,但是常年来看有以下问题:

那为何这么多公司都要加boost、强插、规则呢。我举个反例,有一个自然人注册了多个帐号在我们的平台上发文,我们其实希望可以严打这些行为,但是实际上他发的文章其实就是用户爱看的,那么推荐系统也想把它推下来,这时候从产品战略角度而言就须要我们deboost。

即总结下来就是:我们希望加入的规则,并不是自作聪明教推荐系统如何推的准。而是像这个反例中所展示的,从内容生态、冷启动、产品业务角度给与一定的扶植/打压,这才是规则的正确使用方式。
页: [1]
查看完整版本: 工业界推荐的本质:候选池和用户满意度的关键作用