通用信息抽取技术UIE能力升级及其在金融业务中的落地应用

发布日期：2022-09-08T06:19:59.000+0000 浏览量：6023次

信息抽取是NLP领域的重要任务之一，想必各位有信息抽取业务的NLPer都使用过UIE（Universal Information Extraction，通用信息抽取）技术了。UIE多任务统一建模特性大幅降低了模型开发成本和部署机器成本，相较于传统的预训练-微调范式，UIE基于Prompt的零样本抽取和少样本迁移能力更是惊艳！例如，在金融领域的事件抽取任务上，仅仅标注5条样本，F1值就提升了25个点！

表1：UIE在中文信息抽取数据集上零样本和小样本效果

（F1-score）

UIE由中科院软件所和百度共同提出，在实体、关系、事件和情感分析等4个信息抽取任务，13个数据集的全监督、低资源和少样本设置下，UIE均取得了SOTA性能，这项成果发表在ACL 2022[1]。

今年5月，飞桨PaddleNLP结合文心大模型中的知识增强NLP大模型ERNIE 3.0[2]，发挥了UIE在中文任务上的强大潜力，并且在论文的基础上针对实际落地进行进一步优化，开源了首个面向通用信息抽取的产业级技术方案，一经发布，即被广泛使用。近日，PaddleNLP又带来UIE两大升级：

UIE两大升级点

UIE多语言版本UIE-M,支持中英文混合抽取
蒸馏版UIE，提速100倍以上

UIE-M介绍

UIE-M基于百度自研的多语言预训练模型ERNIE-M。作为UIE系列的多语言版本，UIE-M模型不仅支持使用中文Prompt抽取中文和使用英文Prompt抽取英文，还支持中英文交叉抽取，例如，输入英文Prompt，能够同时抽取中文和英文文本中的关键信息（如下图），可以说非常酷炫了！仅需3行代码，调用PaddleNLP Taskflow API，即可快速使用：

>>> from pprint import pprint
>>> from paddlenlp import Taskflow
>>> schema = ['Time', 'Player', 'Competition', 'Score']
>>> ie = Taskflow('information_extraction', schema=schema, model="uie-m-base", schema_lang="en")
>>> pprint(ie(["2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！", "Rafael Nadal wins French Open Final!"]))
[{'Competition': [{'end': 23,
                  'probability': 0.9373889907291257,
                  'start': 6,
                  'text': '北京冬奥会自由式滑雪女子大跳台决赛'}],
  'Player': [{'end': 31,
              'probability': 0.6981119555336441,
              'start': 28,
              'text': '谷爱凌'}],
  'Score': [{'end': 39,
            'probability': 0.9888507878270296,
            'start': 32,
            'text': '188.25分'}],
  'Time': [{'end': 6,
            'probability': 0.9784080036931151,
            'start': 0,
            'text': '2月8日上午'}]},
{'Competition': [{'end': 35,
                  'probability': 0.9851549932171295,
                  'start': 18,
                  'text': 'French Open Final'}],
  'Player': [{'end': 12,
              'probability': 0.9379371275888104,
              'start': 0,
              'text': 'Rafael Nadal'}]}]

UIE-M后续可以扩展到96种语言的信息抽取，同时这种跨语言信息抽取能力有较好的模型迁移能力，支持高资源语言到低资源语言的信息抽取迁移学习。

UIE蒸馏版介绍

为了满足开发者在精度、性能方面的多样性需求，PaddleNLP开源了多种规模的UIE模型，如图：

图1：PaddleNLP中开源的UIE模型

以上模型能够满足大部分开发者的需求。针对某些对性能要求极高或硬件性能较差的场景，PaddleNLP又双叒叕开源了UIE蒸馏版，进一步提升训练和预测性能。

PaddleNLP基于数据蒸馏技术构建了UIE蒸馏版，其原理是通过数据作为桥梁，将开放域的UIE信息抽取能力，通过大量无监督数据迁移到封闭域信息抽取小模型中，同时在UIE蒸馏版中提出关系抽取SPO三元组、情感分析ASO三元组统一解码策略，统一了封闭域信息抽取模型结构，在精度损失较小的情况下，能达到 100倍以上的预测速度提升 ！

对UIE技术细节感兴趣的朋友，可前往PaddleNLP中进行了解：

建议各位STAR收藏起来

https://github.com/PaddlePaddle/PaddleNLP

UIE在金融风控

业务中的应用

图2：UIE在各行业中的应用示例

如上图所示，UIE发布以来，已被广泛应用于金融、医疗、互联网等各行各业中。下面以金融领域——上市公司风险识别业务为例，介绍UIE的行业应用效果。

上市公司风险识别 是金融市场参与者共同关心的议题。根据监管要求，企业定期或不定期地发布公告信息。作为公司信息披露的主要载体，公告信息可能包含事件描述、深度分析、信息传递等各种价值信息和重要风险信息。

针对证监会、银监会发布的监管处罚的公告，上市公司公告中对于证券价格影响较大的事件、媒体发布的关于损害公司声誉的负面言论等各类风险舆情，业务人员需要定时进行搜索、归集，然后撰写每日风险总结报告。人工进行公告信息抽取不仅工作量繁重，且准确率与覆盖率不足，难以满足日益增长的数据量以及快节奏的需求变动。目前，已有众多金融科技企业应用UIE技术，解决了这一难题。

图3：上市公司信息抽取效果直观展示

中国金融科技行业龙头企业 金仕达基于UIE针对性地研发智能文档分析技术，将各类非结构化文档进行统一收集与分析，抽取重要事件、知识信息，信息抽取准确率达到95% ，大幅降低业务人员信息录入与文件审核成本，支撑两类典型应用：

应用一：从微观（单篇）和宏观（多篇）层面分析、汇总、展示重要信息；
应用二： 为上层的金融应用场景分析算法提供重要因子，大幅提高传统机器学习算法的效果。

图4：UIE在金融场景中的典型应用

课程预告

众多周知，在AI技术落地业务应用过程中，往往不单单涉及深度学习模型的调用，还包括与规则系统、传统机器学习算法的融合，这一现象在金融领域尤其明显。

为进一步加速金融科技行业人工智能融合创新与产业落地，百度飞桨联合百度智能云举办主题为“乘风而起，AI赋能智慧金融创新发展”的 行业经验系列分享课程，包含4周系统课程，4大主流场景，10+代码全开源的实践范例 ，邀请行业内专家共同探讨科技金融的未来发展，分享产业实践。 9月8日（本周四）将由金仕达AI实验室负责人、高级研究员——孙科，进行线上直播分享，名额有限，感兴趣的朋友可扫码预约课程 ：