OPPO-大规模分布式推荐系统

发布日期：2020-07-23T02:27:44.000+0000 浏览量：7695次

案例简介

OPPO自2018年起开始大举进军互联网业务，创立了信息流、信息流广告、应用商店、游戏中心、商业中心等诸多业务线，并迅速积累了大量的用户和数据。由于业务规模的急剧扩张， OPPO 原来在单机上搭建的训练系统不具备处理大规模数据和训练大型推荐系统的能力，严重制约了互联网的业务发展，急需更好的框架体系来满足业务方对于模型训练速度、效果指标增长的需求。

上线场景

相关产品

Paddle Serving

场景分析

客户诉求

OPPO 互联网服务的产品及业务主要包括应用商店、信息流、信息流广告、游戏中心、商业广告等，这些产品及业务线后端主要依托于机器学习、深度学习等技术结合用户行为等数据进行训练以及预测。

基于飞桨的能力对应用商店进行了升级：采取高性能数据读取接口Dataset完成大规模数据的读取；采用基于参数服务器的大规模CPU分布式的全异步训练模型，以较低的资源消耗来训练海量的数据以及极大的稀疏参数。

诉求一：能够支持先进的训练模型，支持推荐系统领域内的新模型新方法。
诉求二：能够轻松支持分布式大规模深度学习训练能力，支持增量训练等多种训练机制，支持亿级别以上的稀疏参数训练。
诉求三：性能优秀，速度超越原有方案，能够在所需的时间内训练完成全部所需的数据。
诉求四：有完善的训练能力和预测能力，能够支持分布式训练到高性能模型部署。

技术方案

策略建议

数据读取使用高性能数据读取接口Dataset，Dataset在数据读取方面性能优异，且提供了如 Global Shuffle、Local Shuffle 等实用工具。

基于参数服务器的大规模 CPU分布式的全异步训练模型，以较低的资源消耗来训练海量的数据以及极大的稀疏参数。飞桨提供的分布式的全异步训练模式，效率很高且效果稳定，在推荐相关领域内十分受欢迎。

预测方面前期采用飞桨的预测库自行构建预测服务，后期可以使用飞桨提供的 Paddle Serving 一站式解决预测部署。

飞桨在OPPO首页的推荐算法机理

上线效果

OPPO在其多个业务线都上线了基于飞桨深度学习框架构建的大规模分布式推荐系统，覆盖全球海量月活用户，取得了大幅度的指标提升。

性能强：全异步大规模训练集群规模，业务模型训练速度提升效果显著;
参数规模大: Embedding规模&模型扩大数倍；
效果好：在多个场景(广告，信息流等)，线上关键指标提升效果显著；
性价比高：参数服务器训练，大幅度减少内存开销。

案例企业简介

OPPO 广东移动通信有限公司，位于中国东莞，是专注于智能终端产品、软件和互联网服务的科技公司，由陈明永创立于 2004 年。OPPO 业务遍及 40 多个国家和地区，拥有超过 400,000 个销售网点。OPPO 在全球共有六大研究所和四大研发中心，拥有超过40,000名员工。2018 全年，OPPO 在全球智能手机市场中出货量共 1.132 亿部，以 8.1% 的市场份额位居第五; 同时，在中国智能手机市场，OPPO 手机年出货量共 7890 万部，以 19.8% 的市场份额位居第二。

上一篇：全球顶会论文作者，28天免费手把手带你复现顶会论文

下一篇：百度架构师亲授！深度学习超硬核课程&实践项目等你来