飞桨支撑大模型产业落地，最新成果亮相GTC China AI Day

发布日期：2023-03-30 06:43浏览量：1474次

NVIDIA GTC 是人工智能领域的全球AI开发者盛会，2023年度春季大会于3月20-23日在线上举办。NVIDIA 创始人兼CEO黄仁勋指出，AI 的iPhone时刻来临。AI行业已经到达了像iPhone横空出世时为手机行业带来的革命性颠覆的时间点。

百度AI技术生态总经理马艳军，百度主任架构师、MEG商业模型中台技术负责人焦学武在GTC中国特别活动China AI Day上，就飞桨深度学习平台如何高效支持大模型生产及应用，基于GPU的超大规模图模型训练技术等进行分享。百度技术专家还在GTC上带来大模型开发套件PaddleFleetX和AI部署工具FastDeploy的详细介绍。全球数十万开发者注册观看。

长期以来，飞桨与NVIDIA密切合作，联合发布了基于NVIDIA GPU定制优化的飞桨容器NGC，同时在深度学习培训中心和深度学习模型示例方面开展深入合作。NVIDIA也是最早加入飞桨“硬件生态共创计划”的伙伴。该计划截至目前，已包括NVIDIA、Intel、瑞芯微、Arm、Imagination等29家生态伙伴。飞桨还联合NVIDIA在内的13家合作伙伴共同发布了飞桨生态发行版，实现软硬件协同深度优化。

飞桨助力大模型高效生产及应用

降低AI落地门槛

马艳军在主题演讲中首先介绍了大模型的发展趋势和面临的挑战，以及在此趋势和挑战之下飞桨深度学习平台和文心大模型的发展现状，随后具体分享了飞桨框架的训练和推理技术，最后通过ERNIE 3.0（知识增强千亿大模型）、ERNIE-ViLG 2.0（知识增强跨模态大模型）、VIMER-UFO 2.0（视觉多任务大模型）和HelixFold（蛋白结构预测模型）四个大模型案例，展示了飞桨如何高效支持大模型训练和推理的应用实践。

他讲到，不同类型的大模型需要不同的分布式策略来实现高效训练。飞桨同时支持去中心化的集合通信和中心化的参数服务器训练架构。飞桨结合应用持续创新，先后发布了4D 混合并行训练、端到端自适应分布式训练、超大规模图训练引擎等核心技术。而大模型的高效推理是实现大模型产业应用落地的关键所在。飞桨提供了灵活、高性能的部署工具链，支持模型压缩、自适应多GPU分布式推理和服务化部署。飞桨推理引擎可以同时考虑内存、带宽和算力等硬件特性，自动将模型跨设备分区，并且支持灵活配置。

基于飞桨，百度自主研发的产业级知识增强大模型“文心”，通过引入知识图谱，将数据与知识融合，提升了学习效率和可解释性，目前涵盖基础、任务、行业三级体系共36个大模型，包括在能源、金融、制造等领域与相关头部企业联合发布11个行业大模型，全面满足产业应用需求、降低应用门槛。

业界首个同时支持

复杂算法+超大图+超大离散模型的

图模型训练技术PGLBox

焦学武分享了图模型训练技术PGLBox相关内容。百度基于飞桨平台完成了图神经网络架构的全新升级，为业界带来了超大规模图学习训练技术PGLBox。PGLBox是业界首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术，通过显存、内存、SSD三级存储技术和训练框架的性能优化技术，单机即可支持百亿节点、数百亿边的图采样和训练，并可通过多机扩展支持更大规模。

工业场景中现阶段普遍采用分布式CPU主引擎去做图模型训练，但该方案存在算力较弱、稳定性差，很难通过增加节点来提升训练效率等诸多现实局限。为解决这些挑战，百度首先构建分布式的GPU图学习训练框架解决性能问题，并创新性地采用了多级存储体系，将图规模提升一个数量级。百度还利用PGLBox提供的GPU算力和大规模存储能力，将跨模态的各种信息进行统一表达，传统的CPU则无法做类似处理。

在PGLBox的支持下，百度的R-UniMP模型赢得了NeurIPS 2022大型GNN挑战赛冠军。PGLBox为百度业务创新提供了广阔的空间，目前已经在信息推荐、搜索等标杆场景实现落地，大幅提升业务效率和用户体验。

端到端大模型开发套件PaddleFleetX

一站式搞定大模型

百度资深工程师敖玉龙介绍了针对大模型的端到端开发套件 PaddleFleetX 。

PaddleFleetX 依托于飞桨深度学习平台，旨在提供高性能、易于使用和可扩展的组件，支持环境构建、预训练、模型微调、模型压缩，以及基于工业实践的推理部署。

PaddleFleetX的核心技术包括全场景分布式并行策略、极致的分布式训练优化技术、丰富多样的模型小型化能力和高效的大模型分布式推理与部署方案。该开发套件中的关键组件可支持大模型开发与部署的端到端工作流，其中模型并行组件涵盖了各种各样的并行策略，分布式训练组件可以高效地扩展到数千台设备，模型压缩组件可实现无损压缩，分布式推理组件能通过硬件感知来实现低延迟。