\u200E
厚积薄发,智领未来:大模型技术及应用趋势洞察
发布日期:2022-08-10T12:05:53.000+0000 浏览量:157次

本系列根据WAVE SUMMIT 2022深度学习开发者峰会「AI大模型 智领未来」论坛嘉宾分享整理。本文整理自「AI大模型 智领未来」论坛主席、百度技术委员会主席吴华的主题演讲——厚积薄发,智领未来:大模型技术及应用趋势洞察。

预训练大模型能够从海量的、未标注的数据中进行自监督学习,所学习到的通用语义表示能够应用到各种各样的场景中,同时能够通过使用少量和应用相关的数据进行参数微调,从而大幅提升应用效果。
随着模型规模的增大,模型所体现出来的泛化能力、迁移能力能够得到大幅提升。因此,模型的规模相较之前的1亿参数规模提升了1.2万倍,算力规模也提升了1152倍,使用的训练数据从之前的40亿token增加到现在的2.35万亿token,数据规模增长了587倍。

预训练大模型,首先在自然语言处理领域取得了极大成功。在国际权威的自然语言处理集合GLUE和SuperGLUE上,大模型的自然语言理解能力超越了人类,并且体现出了超强的通用AI能力,如通用问答能力和初步推理能力。

在计算机视觉领域,预训练大模型的效果也超越了之前的监督学习方法,在视觉分类、图像分割等任务中取得了很大提升,且表现出了强大的图像理解能力。

随着预训练大模型技术的发展,跨模态预训练大模型不断涌现,在视觉问答、视觉推理等任务中取得了非常好的效果,同时,跨模态大模型展现了强大的生成能力,比如OpenAI DALL-E和百度的文心ERNIE ViLG,能够根据用户输入的文字生成出一幅非常精美的图片。同时,文心ERNIE ViLG也能根据用户输入的图片生成一段文字描述,提升阅读体验。

在预训练大模型的应用过程中,人类的先验知识是不可或缺的。在GPT-3的训练过程中,研究者使用了人类的先验知识来调试参数、编写指令或模板来提升模型效果。在文心ERNIE 3.0中,研究者也引入了凝练的知识图谱,大幅提升了模型的复杂知识推理能力,同时,也开始在模型训练过程中引入人工设计的命令或者指令,使得模型从多个任务的标注数据中学习,使得模型的迁移能力进一步地提升。

除了在模型训练中引入人类知识以提升模型效果,大模型也开始使用AI模型以提高人类的生产效率,比如GitHub使用AI模型生成程序代码,辅助人类程序员提高编写代码的效率。

最近,Transformer的部分作者创业做了一个名为Adept项目,希望AI模型能够与各种各样的工具结合,成为人类工作中的助手,通过命令的形式就能完成图表生成、写总结报告等任务。

尽管预训练大模型取得了很大的进步,但在产业化应用过程中依然面临着三大挑战:

  • 第一、缺乏行业知识,使得大模型在行业应用中的效果不能得到充分体现。
  • 第二、使用门槛高,大模型在使用过程中的数据准备、调试以及评估都需要工具支持。

  • 第三、资源消耗大,大模型在部署过程需要的算力和存储资源非常多,所以在计算资源和存储资源受限的场景下不能满足需求。

在行业应用中,使用行业数据训练过的非预训练模型的效果,实际比通用的预训练大模型效果要好得多,因为通用的大模型没有使用海量的行业知识或数据。因此,面对这些问题,百度提出了“行业大模型”方案。
“行业大模型”实际是在“通用大模型”基础上,使用现存的、海量的行业无标记数据,训练一个行业相应的行业大模型,比如,能源大模型、金融大模型,并且在应用过程中,实现只需要少量的行业标注数据,就能达到非常好的应用效果。

针对大模型应用门槛高的问题,业界将大模型进行了平台化部署,提供了大模型调用的多种方式,且提供了错误分析、监控、迭代等多种工具,降低了应用门槛且简化了应用流程,使大模型可以在各种各样的过程中得到广泛应用。

为了使大模型能够应用于算力和存储资源受限的场景,我们通过对模型进行裁剪、蒸馏、量化和稀疏化,使模型变小。这些方法在模型效果、速度、策略成本、存储便捷性和迭代便捷性等方面各有千秋,在实际应用过程中可以根据实际情况选用不同的方法。

目前,大模型已经广泛地应用在搜索引擎和智能创作等业务中。比如,在搜索引擎中应用大模型后,用户可以提升获取信息的效率,同时搜索引擎能提供跨模态信息使用户的搜索体验得到大幅提升。在智能创作中,用户可以根据需要定义不同题材、不同风格,模型便可以根据用户定义的要素生成不同风格的小说、图片、视频、报表、诗歌等。

大模型在各行业中应用也非常广泛,如交通运输、证券、人力资源、电商、互联网、金融、新媒体等行业,且应用任务多样,涉及文本、语音、视觉、跨模态等多种任务。

下图是大模型应用在保险行业的一个例子,从左侧可以看出,通过跨模态大模型进行内容解析,可以把合同内容解析成39个维度的关键信息,使人工审核一份合同的时间从30分钟降低到1分钟,从而大幅提供了人工审核合同的效率。

总而言之,大模型的发展潜力巨大。一方面我们要进一步提升大模型的效果和效率,另一方面也要探索更多能充分发挥大模型效果的应用场景。

以上就是我的分享,谢谢大家。

扫码获取高清PDF版演讲资料


拓展阅读





关注【飞桨PaddlePaddle】公众号

获取更多技术内容~