跨语言、跨模态、跨任务的大模型，驱动应用生态繁荣

发布日期：2022-01-09 16:00浏览量：1948次

本系列根据WAVE SUMMIT + 2022深度学习开发者峰会「AI大模型智领未来」论坛嘉宾分享整理。文章整理自百度技术委员会主席吴华的主题分享——「大模型技术驱动应用生态繁荣」。

目前，大模型技术的不断发展，促进了智能系统快速发展，进一步提升了应用效果和效率。而在交互过程中所产生的新数据，又不断驱动大模型技术升级，从而形成了技术、应用、数据的闭环正循环，极大提升生产力，促进生态繁荣，使人们生活更加美好。

大模型迭代闭环趋势

众所周知，大模型技术不断发展，已经从大模态发展到了多模态和跨模态，比如从Instruct GPT3技术发展到跨模态的DALL·E-2技术，同时大模型在应用过程中也产生了非常好的轻量级应用技术，比如Prompt Turning技术。这些技术发展促进了应用繁荣，比如最近半年出现的以AIGC应用为代表性业务的独角兽创企，达到了十亿美元以上估值。同时，大模型技术也促进了端到端智能系统的快速发展，进一步提升了应用效果和效率，而这些应用在与用户、环境的交互过程中产生了海量新数据，这些数据又不断驱动大模型技术升级，从而形成了技术、应用、数据的正循环。

大模型技术日趋成熟

在这个正循环里，大模型是根基。同时大模型不断发展，资深技术也日趋成熟。

在 自然语言处理领域 ，大模型具有更强的小样本学习能力，比如基于思维链的Flan-PaLM，该模型已经具有基本推理能力；再如基于层次化多任务学习的文心ERNIE 3.0 Zeus。同时为了进一步降低落地门槛，出现了效率高、泛化能力强的轻量级大模型，比如文心ERNIE 3.0 Tiny。

在 计算机视觉领域 ，百度提出了基于视觉掩码技术的文心VIMER-CAE，在图像分割任务中，该模型泛化能力较强。Google训练了一个模型参数规模高达170亿的多任务视觉学习模型PaLI，该模型在多任务学习上效果得到了显著提升。

在 跨模态领域 ，最近提出了扩散模型，该模型引发了文本到图像生成技术的变革，比如百度提出了文心ERNIE-ViLG 2.0，该模型可以生成语义更相关、质量更高的图片。同时这个技术浪潮也催生了文本到视频领域的技术革新，比如当输入“正在画肖像的泰迪熊”这句话时，大模型能够直接生成一个正在画肖像的泰迪熊的视频，诸如此类的技术不断繁荣。

大模型的使用门槛进一步降低

大模型的效果有目共睹，但在应用过程中，研发者需要进一步降低其使用门槛，主要面临两个问题。

第一个问题 是面对大模型学习的海量知识和技能，如何在应用中有效激发，达到最好效果。针对这个问题，百度提出了Prompt技术，该技术能在下游任务中，通过使用Prompt去应用相关知识，从而提升模型效果。当前大模型已经能自己写Prompt，且超越了人类水平。因此，大模型在下游任务中的门槛进一步降低。

第二个问题 是在一些应用场景中，对速度、时延、存储都有严格要求，如何使模型更轻量化也是大模型应用所面临的挑战。针对这个问题，百度推演出大小模型协同促进的研发范式，一方面大模型将效果推到极致，让小模型向大模型学习；另一方面小模型利用已有知识辅助大模型进行知识选择，提升迭代效果，降低使用成本，由此产生飞轮效应，促进大小模型协同进化。

大模型平台集约化加速应用创新

随着大模型使用门槛的降低，大模型应用呈现出集约化加速应用创新的趋势。比如百度以大模型能力为中心，构建了文心大模型套件ERNIEKit。

基于该套件，用户能够实现数据处理、模型预训练、模型微调、模型快速部署等多维度能力应用，支持40多个场景，由此衍生出来的能力可以通过开发平台和服务平台，进一步赋能开发者和生态，最终实现整个平台覆盖大模型应用落地全周期，使得开发门槛进一步降低。

大模型驱动的产业应用创新

随着大模型能力不断强大，基于大模型的智能系统驱动应用端对端创新，使传统任务系统架构大幅简化，同时提升了应用效果和效率，从而加速数据和模型应用闭环建设。如百度文心百中端对端搜索系统，能够完成端到端的文本、图像、语音不同模态之间的搜索任务，相比以前级联的搜索系统，该系统能够更好利用用户模型和数据之间、端到端地优化效果简化整个流程，不仅获得更好效果，而且节省定制成本。

此外，在进行文档理解时，以前针对文档里的无结构化文本、表格、图像，分别需要一个模型，而现在能够使用统一的模型处理文本、表格、图像等多种格式和模态，实现使用一个模型处理多个任务，而且在公开数据集上已获得SOTA效果，使文档理解系统达到商业要求。

随着大模型技术不断发展，大模型也推动了AIGC的繁荣。目前，人们应用数据或者互联网内容，主要通过普通用户或者专家产生，也即UGC和PGC内容生产模式。但现在AI也可以生产内容，其优势是既能提升内容生产效率，也能创造出独特价值和视角。

最近几年，很多国内外头部公司和创企公司都涌入AIGC赛道，同时，发展较快的AI作画、AI营销等应用都呈现出蓬勃发展趋势。围绕大模型AIGC能力，市场产生了很多应用，比如AI作画、AI营销等。AIGC除了生产文本和图像外，还能够生产视频和代码，生产代码主要是为了提升开发效率。

随着AIGC内容不断丰富，用户能够进一步探索应用效果，同时大模型也显著提升了交互体验。比如在多模态拟人效果上，基于大模型的数字人，借助形象、语音与表情更好地沟通表达、传递信息，从而大幅提升人和机器之间的交互体验。

大模型还能够进行角色扮演，用户可以自定义机器人角色，比如定义为诗人、画家、政治家等，这样用户就可以在与机器交互过程中产生不同体验。

此外，机器人可以扮演知识大百科角色，比如一位学富五车的学者，这背后主要基于文心PLATO-K大模型。作为首个中文可主动查询利用外部知识的对话大模型，文心PLATO-K能够主动学习知识，提升用户体验。

与此同时，大模型也促进了传统行业向智能化发展，加速产业落地。比如在生物计算领域，Google推出了AlphaFold2，发布了2.2亿蛋白结构预测结果，解决了生物领域50年的难题。同时，百度也推出了HelixFold-Single模型，它是在AlphaFold2基础上提升预测效果，能够进行秒级别的蛋白结构预测，而且在抗体蛋白结构预测上，比AlphaFold2更优。

此外，大模型也能够跟行业大数据结合，在金融、电力、航天、汽车、媒体等行业里，大幅提升效果和效率。

大模型持续学习应用反馈数据

人们普遍认为人在学习过程中，如果想成为某个领域专家，存在“一万小时定律”，同时在学习过程中的反馈也非常重要。这个理论对大模型同样适用，即大模型需要向大数据学习，并在学习过程中不断获得反馈信息。因此，大模型能够持续学习应用中的反馈数据，尤其在环境和用户交互过程中，通过反馈不断提升模型效果，使大模型持续学习，从而达到更好效果。比如在搜索问答场景里，通过用户反馈，模型应用效果得到进一步提升。

统一大模型进一步促进生态繁荣

随着技术、应用、数据闭环的不断发展，模型开始趋向于跨语言、跨模态、跨任务的统一大模型。

以前不同语言、不同模态和不同任务，都是单独模型；随着技术不断发展，现在能够对多个任务使用统一模型学习，比如模型能同时学习文本、语音、图像、视频等数据。而且模型在应用过程中能够与用户和环境进行交互，学习到用户行为和环境信息，比如时空数据和感知数据。而这些数据之间相互作用、相互补充，得以进一步提升模型效果，促进生态繁荣。