\u200E
跨语言、跨模态、跨任务的大模型,驱动应用生态繁荣
发布日期:2022-01-09T16:00:00.000+0000 浏览量:1399次

本系列根据WAVE SUMMIT + 2022深度学习开发者峰会「AI大模型 智领未来」论坛嘉宾分享整理。文章整理自百度技术委员会主席吴华的主题分享——「大模型技术驱动应用生态繁荣」。

目前,大模型技术的不断发展,促进了智能系统快速发展,进一步提升了应用效果和效率。而在交互过程中所产生的新数据,又不断驱动大模型技术升级,从而形成了技术、应用、数据的闭环正循环,极大提升生产力,促进生态繁荣,使人们生活更加美好。

大模型迭代闭环趋势

众所周知,大模型技术不断发展,已经从大模态发展到了多模态和跨模态,比如从Instruct GPT3技术发展到跨模态的DALL·E-2技术,同时大模型在应用过程中也产生了非常好的轻量级应用技术,比如Prompt Turning技术。这些技术发展促进了应用繁荣,比如最近半年出现的以AIGC应用为代表性业务的独角兽创企,达到了十亿美元以上估值。同时,大模型技术也促进了端到端智能系统的快速发展,进一步提升了应用效果和效率,而这些应用在与用户、环境的交互过程中产生了海量新数据,这些数据又不断驱动大模型技术升级,从而形成了技术、应用、数据的正循环。
大模型技术日趋成熟
在这个正循环里,大模型是根基。同时大模型不断发展,资深技术也日趋成熟。
自然语言处理领域 ,大模型具有更强的小样本学习能力,比如基于思维链的Flan-PaLM,该模型已经具有基本推理能力;再如基于层次化多任务学习的文心ERNIE 3.0 Zeus。同时为了进一步降低落地门槛,出现了效率高、泛化能力强的轻量级大模型,比如文心ERNIE 3.0 Tiny。
计算机视觉领域 ,百度提出了基于视觉掩码技术的文心VIMER-CAE,在图像分割任务中,该模型泛化能力较强。Google训练了一个模型参数规模高达170亿的多任务视觉学习模型PaLI,该模型在多任务学习上效果得到了显著提升。
跨模态领域 ,最近提出了扩散模型,该模型引发了文本到图像生成技术的变革,比如百度提出了文心ERNIE-ViLG 2.0,该模型可以生成语义更相关、质量更高的图片。同时这个技术浪潮也催生了文本到视频领域的技术革新,比如当输入“正在画肖像的泰迪熊”这句话时,大模型能够直接生成一个正在画肖像的泰迪熊的视频,诸如此类的技术不断繁荣。
大模型的使用门槛进一步降低
大模型的效果有目共睹,但在应用过程中,研发者需要进一步降低其使用门槛,主要面临两个问题。
第一个问题 是面对大模型学习的海量知识和技能,如何在应用中有效激发,达到最好效果。针对这个问题,百度提出了Prompt技术,该技术能在下游任务中,通过使用Prompt去应用相关知识,从而提升模型效果。当前大模型已经能自己写Prompt,且超越了人类水平。因此,大模型在下游任务中的门槛进一步降低。
第二个问题 是在一些应用场景中,对速度、时延、存储都有严格要求,如何使模型更轻量化也是大模型应用所面临的挑战。针对这个问题,百度推演出大小模型协同促进的研发范式,一方面大模型将效果推到极致,让小模型向大模型学习;另一方面小模型利用已有知识辅助大模型进行知识选择,提升迭代效果,降低使用成本,由此产生飞轮效应,促进大小模型协同进化。

大模型平台集约化加速应用创新
随着大模型使用门槛的降低,大模型应用呈现出集约化加速应用创新的趋势。比如百度以大模型能力为中心,构建了文心大模型套件ERNIEKit。

基于该套件,用户能够实现数据处理、模型预训练、模型微调、模型快速部署等多维度能力应用,支持40多个场景,由此衍生出来的能力可以通过开发平台和服务平台,进一步赋能开发者和生态,最终实现整个平台覆盖大模型应用落地全周期,使得开发门槛进一步降低。
大模型驱动的产业应用创新
随着大模型能力不断强大,基于大模型的智能系统驱动应用端对端创新,使传统任务系统架构大幅简化,同时提升了应用效果和效率,从而加速数据和模型应用闭环建设。如百度文心百中端对端搜索系统,能够完成端到端的文本、图像、语音不同模态之间的搜索任务,相比以前级联的搜索系统,该系统能够更好利用用户模型和数据之间、端到端地优化效果简化整个流程,不仅获得更好效果,而且节省定制成本。
此外,在进行文档理解时,以前针对文档里的无结构化文本、表格、图像,分别需要一个模型,而现在能够使用统一的模型处理文本、表格、图像等多种格式和模态,实现使用一个模型处理多个任务,而且在公开数据集上已获得SOTA效果,使文档理解系统达到商业要求。
随着大模型技术不断发展,大模型也推动了AIGC的繁荣。目前,人们应用数据或者互联网内容,主要通过普通用户或者专家产生,也即UGC和PGC内容生产模式。但现在AI也可以生产内容,其优势是既能提升内容生产效率,也能创造出独特价值和视角。
最近几年,很多国内外头部公司和创企公司都涌入AIGC赛道,同时,发展较快的AI作画、AI营销等应用都呈现出蓬勃发展趋势。围绕大模型AIGC能力,市场产生了很多应用,比如AI作画、AI营销等。AIGC除了生产文本和图像外,还能够生产视频和代码,生产代码主要是为了提升开发效率。
随着AIGC内容不断丰富,用户能够进一步探索应用效果,同时大模型也显著提升了交互体验。比如在多模态拟人效果上,基于大模型的数字人,借助形象、语音与表情更好地沟通表达、传递信息,从而大幅提升人和机器之间的交互体验。
大模型还能够进行角色扮演,用户可以自定义机器人角色,比如定义为诗人、画家、政治家等,这样用户就可以在与机器交互过程中产生不同体验。
此外,机器人可以扮演知识大百科角色,比如一位学富五车的学者,这背后主要基于文心PLATO-K大模型。作为首个中文可主动查询利用外部知识的对话大模型,文心PLATO-K能够主动学习知识,提升用户体验。
与此同时,大模型也促进了传统行业向智能化发展,加速产业落地。比如在生物计算领域,Google推出了AlphaFold2,发布了2.2亿蛋白结构预测结果,解决了生物领域50年的难题。同时,百度也推出了HelixFold-Single模型,它是在AlphaFold2基础上提升预测效果,能够进行秒级别的蛋白结构预测,而且在抗体蛋白结构预测上,比AlphaFold2更优。

此外,大模型也能够跟行业大数据结合,在金融、电力、航天、汽车、媒体等行业里,大幅提升效果和效率。
大模型持续学习应用反馈数据
人们普遍认为人在学习过程中,如果想成为某个领域专家,存在“一万小时定律”,同时在学习过程中的反馈也非常重要。这个理论对大模型同样适用,即大模型需要向大数据学习,并在学习过程中不断获得反馈信息。因此,大模型能够持续学习应用中的反馈数据,尤其在环境和用户交互过程中,通过反馈不断提升模型效果,使大模型持续学习,从而达到更好效果。比如在搜索问答场景里,通过用户反馈,模型应用效果得到进一步提升。
统一大模型进一步促进生态繁荣
随着技术、应用、数据闭环的不断发展,模型开始趋向于跨语言、跨模态、跨任务的统一大模型。
以前不同语言、不同模态和不同任务,都是单独模型;随着技术不断发展,现在能够对多个任务使用统一模型学习,比如模型能同时学习文本、语音、图像、视频等数据。而且模型在应用过程中能够与用户和环境进行交互,学习到用户行为和环境信息,比如时空数据和感知数据。而这些数据之间相互作用、相互补充,得以进一步提升模型效果,促进生态繁荣。
在大模型发展过程中,首先将现有数据学习到模型中,并应用在各行各业的任务中。同时这些应用又可以产生新的数据,并且在模型里使用,逐渐循环形成了闭环。这个闭环能够极大提升生产力,使人们的生活更加美好。
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~