当推荐遇到社交：美图的推荐算法设计优化实践

2019-09-10 10:04:02来源：亿欧

在美图公司社交战略部署下，推荐算法存在多方面的挑战，为了解决这些挑战，我们团队从工具和算法两个方面分别开展了工作。

在工具上，我们开发了 MML 机器学习平台，提供从数据分析到模型在线服务的全流程开发及部署支持。基于 Tensorflow，我们内部自研了 Bamboo 建模框架，提供了丰富的 SOTA 模型，常用 Layers 以及其它建模所需的组件，模型离线评估等，让算法工程师专注网络结构的设计。

在算法上，我们将推荐排序的演进划分成四个阶段，从线性模型+大规模人工组合特征，到非线性模型+少量人工特征，再到深度学习模型+用户行为序列特征，最后是从单目标优化到多目标优化。推荐排序四个阶段的演进，又可以归纳为三个方面的工作，分别是模型优化、特征工程，以及多目标优化。

在过去的一年，我们在美拍，累计提升人均关注 65.06%，人均时长 56.07%。美图秀秀，累计提升人均关注 14.93%，人均时长 10.33%。在这一年的实践中，我们进行了很多的尝试，在这里也和大家分享我们过去的一些尝试和踩过的一些坑，希望能让大家有所收获。

美图推荐排序实践——模型演进

2018 年，我们上线了第一个基于何向南在 SIGIR 2017 发表的《Neural Factorization Machines for Sparse Predictive Analytics》改进的模型——NFM-v4。相比原论文，我们的主要改进点是通过一个线性变换，将变长稀疏的原始高维特征压缩到一个定长稠密的低维实数空间，从而屏蔽了模型在输入特征处理上的差异，可以将精力更多放在特征的挖掘上。

但是，将几十万维的高维空间直接压缩到几百维，存在一定的信息损失，因此，在 NFM-v4 的基础上，我们通过将部分高维 id 特征单独建模，比较好的解决了这个问题，在业务指标上，也有不错的效果提升，美拍的人均播放时长增加了 4.75%，人均有效行为数增加了 3.45%。

不过，NFM 存在的一个问题是，bi-interaction pooling 认为特征二阶交叉的权重是相等的，这种假设在多数场景下并不符合数据的真实分布。因此，在 NFM 的基础上，我们提出了 Neural Field weighted Factorization Machines（NFwFM）模型，通过引入一个权重向量，来建模二阶交叉特征的权重。通过二阶向量不等权相加，业务指标整体提升较为明显。其中美拍人均播放时长增加 3.78%，播放用户数增加 1.74%，美图秀秀点击率提升了 5.689%，人均使用时长增加 2.53%，新用户点击率增加 2.701%。

美图推荐排序实践——特征工程

从 LR 升级到 NFwFM，我们虽然减少了大量的特征组合上的工作，但是，如何从数据中挖掘对当前业务有效的特征？如何进行特征选择？依旧占据了我们的主要精力。去年，工业界和学术界，都发表了大量关于 User Behaviors Sequence 建模的新工作，随后，我们也开始跟进这一方面的工作，并在我们的业务中进行了尝试，通过端到端的建模，减少我们在特征工程上的工作。

目前，我们主要尝试了三种用户行为序列建模的方法，包括 Sum/Mean Pooling 、 RNN 、 Attention 等。在我们的业务场景下，RNN 的离线效果并不理想，原因推测是用户点击 feed 的先后顺序并不存在某种固定的模式，而主要取决于用户对所推荐 feed 的偏好，此外，RNN 的训练耗时也增加比较明显。

Sum/Mean Pooling 的方式虽然简单，但是在长行为序列建模上，效果相比其它两种方式表现得更加优异，因此是我们目前线上建模用户长序列特征的主要手段。

我们也对比了基于 Attention 的方法，离线效果相比 Sum/Mean Pooling 有略微提升，但是考虑到计算复杂度，Attention 只适合于序列长度较短的场景。

在美拍，美图秀秀社区，以及 push 业务都尝试了用户行为序列特征建模，各项业务指标均有较大幅度的提升，美拍人均时长提升了 12%，秀秀的点击率提升了 5%，push 的到达点击率提升了 10%。

随着模型和特征的复杂度显著增加，在线 inference 的耗时已经无法满足业务的要求。为了解决模型推理效率的问题，一方面我们通过 C++ 重写了模型在线推理服务——MML Serving，并在内存和并发上做了大量优化，使得 QPS 和稳定性有了大幅度提升。另一方面，我们实现了多塔网络的模型框架，通过离线预计算 user 和 feed 子网络的输出，并存到 DB 中，在线通过检索 DB 的方式，避免了实时计算 user 和 feed 子网络的庞大计算量。收益也是很明显，其中排序预估耗时从 100+ms 下降到了 7ms，秀秀社区 push 服务预估耗时从单尾号 5 小时降低到了 3 分钟，到达点击率平均提升 23.9%。

美图推荐排序实践——多目标优化

随着产品优化的深入，单一的模型优化目标已经无法准确刻画产品的迭代方向，为了满足多样化的产品需求，我们开始探索多目标优化。整个多目标优化的路线，大概经历了四个阶段：样本 reweight，多目标模型，多模型，多个多目标模型。下面我将对这四个阶段的工作分别进行介绍。

多目标优化之样本 reweight

样本 reweight 是一种简单轻量的可用于解决多目标问题的做法，它借鉴了 imbalanced data 的典型做法，在保持模型优化的主目标不变的情况下，通过提高次要目标的正样本占比，来模拟多目标的联合概率分布。

我们在美拍和美图秀秀社区上，对增加关注目标进行了尝试。美拍在播放时长略微上涨的情况下，实现了人均关注 10.06% 的提升。美图秀秀社区关注转化率提升了 12.03%，不过点击率也有略微的下降。

多目标优化之多目标模型

样本 reweight 的方式改变了样本的原始分布，导致主目标存在比较大的预估偏差。同时，因为次要目标是通过主目标的网络结构来实现，无法对各个目标的模型分别进行调优，模型结构优化存在比较大的局限性。因此，我们开始尝试多目标模型建模。

多目标模型通过共享底层的网络输入，实现信息共享，再根据每个目标的数据特点，分别构建各个目标的输出网络，得到每个目标的输出。

在美图的多个社交场景中，我们进行了尝试，并取得了比较大的在线提升。其中，在美拍双列 feed 流场景下，人均关注提升 11.43%，人均播放时长提升 12.45%。美图秀秀首页 feed 流，点击率提升 1.93%，关注率提升 2.9%。美图秀秀下滑 feed 流，关注率提升 9.3%，人均时长提升 10.33%。

多目标优化之多模型

虽然多目标模型在业务上取得了比较大的提升，但是仍然存在一些问题。典型的问题包括：

当不同任务的目标相关性较弱，或者损失函数的输出值范围差异较大时，多目标模型的调优存在比较大的困难；

使用多目标模型，会导致不同目标的优化存在比较大的耦合，延迟整体优化进度，在产品要求快速迭代的场景下，这种技术手段不一定能够很好的满足业务需求。

为了解决多目标模型存在的一些问题，我们通过拆分多目标模型的各个目标，得到多个单目标模型，并对每个单目标模型分别进行优化。在美拍双列 feed 流场景下，我们进行了相应的尝试，在人均时长不变的情况下，人均关注提升了 2.98%。通过进一步调整模型的优化目标，人均时长再次提升了 19.37%，人均关注提升了 14.1%。

多目标模型