厚积薄发，智领未来：大模型技术及应用趋势洞察

发布日期：2022-08-10T12:05:53.000+0000 浏览量：5562次

本系列根据WAVE SUMMIT 2022深度学习开发者峰会「AI大模型智领未来」论坛嘉宾分享整理。本文整理自「AI大模型智领未来」论坛主席、百度技术委员会主席吴华的主题演讲——厚积薄发，智领未来：大模型技术及应用趋势洞察。

预训练大模型能够从海量的、未标注的数据中进行自监督学习，所学习到的通用语义表示能够应用到各种各样的场景中，同时能够通过使用少量和应用相关的数据进行参数微调，从而大幅提升应用效果。

随着模型规模的增大，模型所体现出来的泛化能力、迁移能力能够得到大幅提升。因此，模型的规模相较之前的1亿参数规模提升了1.2万倍，算力规模也提升了1152倍，使用的训练数据从之前的40亿token增加到现在的2.35万亿token，数据规模增长了587倍。

预训练大模型，首先在自然语言处理领域取得了极大成功。在国际权威的自然语言处理集合GLUE和SuperGLUE上，大模型的自然语言理解能力超越了人类，并且体现出了超强的通用AI能力，如通用问答能力和初步推理能力。

在计算机视觉领域，预训练大模型的效果也超越了之前的监督学习方法，在视觉分类、图像分割等任务中取得了很大提升，且表现出了强大的图像理解能力。

随着预训练大模型技术的发展，跨模态预训练大模型不断涌现，在视觉问答、视觉推理等任务中取得了非常好的效果，同时，跨模态大模型展现了强大的生成能力，比如OpenAI DALL-E和百度的文心ERNIE ViLG，能够根据用户输入的文字生成出一幅非常精美的图片。同时，文心ERNIE ViLG也能根据用户输入的图片生成一段文字描述，提升阅读体验。

在预训练大模型的应用过程中，人类的先验知识是不可或缺的。在GPT-3的训练过程中，研究者使用了人类的先验知识来调试参数、编写指令或模板来提升模型效果。在文心ERNIE 3.0中，研究者也引入了凝练的知识图谱，大幅提升了模型的复杂知识推理能力，同时，也开始在模型训练过程中引入人工设计的命令或者指令，使得模型从多个任务的标注数据中学习，使得模型的迁移能力进一步地提升。

除了在模型训练中引入人类知识以提升模型效果，大模型也开始使用AI模型以提高人类的生产效率，比如GitHub使用AI模型生成程序代码，辅助人类程序员提高编写代码的效率。

最近，Transformer的部分作者创业做了一个名为Adept项目，希望AI模型能够与各种各样的工具结合，成为人类工作中的助手，通过命令的形式就能完成图表生成、写总结报告等任务。

尽管预训练大模型取得了很大的进步，但在产业化应用过程中依然面临着三大挑战：

第一、缺乏行业知识，使得大模型在行业应用中的效果不能得到充分体现。
第二、使用门槛高，大模型在使用过程中的数据准备、调试以及评估都需要工具支持。
第三、资源消耗大，大模型在部署过程需要的算力和存储资源非常多，所以在计算资源和存储资源受限的场景下不能满足需求。

在行业应用中，使用行业数据训练过的非预训练模型的效果，实际比通用的预训练大模型效果要好得多，因为通用的大模型没有使用海量的行业知识或数据。因此，面对这些问题，百度提出了“行业大模型”方案。

“行业大模型”实际是在“通用大模型”基础上，使用现存的、海量的行业无标记数据，训练一个行业相应的行业大模型，比如，能源大模型、金融大模型，并且在应用过程中，实现只需要少量的行业标注数据，就能达到非常好的应用效果。

针对大模型应用门槛高的问题，业界将大模型进行了平台化部署，提供了大模型调用的多种方式，且提供了错误分析、监控、迭代等多种工具，降低了应用门槛且简化了应用流程，使大模型可以在各种各样的过程中得到广泛应用。

为了使大模型能够应用于算力和存储资源受限的场景，我们通过对模型进行裁剪、蒸馏、量化和稀疏化，使模型变小。这些方法在模型效果、速度、策略成本、存储便捷性和迭代便捷性等方面各有千秋，在实际应用过程中可以根据实际情况选用不同的方法。

目前，大模型已经广泛地应用在搜索引擎和智能创作等业务中。比如，在搜索引擎中应用大模型后，用户可以提升获取信息的效率，同时搜索引擎能提供跨模态信息使用户的搜索体验得到大幅提升。在智能创作中，用户可以根据需要定义不同题材、不同风格，模型便可以根据用户定义的要素生成不同风格的小说、图片、视频、报表、诗歌等。

大模型在各行业中应用也非常广泛，如交通运输、证券、人力资源、电商、互联网、金融、新媒体等行业，且应用任务多样，涉及文本、语音、视觉、跨模态等多种任务。

下图是大模型应用在保险行业的一个例子，从左侧可以看出，通过跨模态大模型进行内容解析，可以把合同内容解析成39个维度的关键信息，使人工审核一份合同的时间从30分钟降低到1分钟，从而大幅提供了人工审核合同的效率。

总而言之，大模型的发展潜力巨大。一方面我们要进一步提升大模型的效果和效率，另一方面也要探索更多能充分发挥大模型效果的应用场景。

以上就是我的分享，谢谢大家。

扫码获取高清PDF版演讲资料

拓展阅读

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

上一篇：全国人工智能师资培训高校行第三站-中国人民大学

下一篇：打开你的脑洞，来做AI的创造者吧！