paddle.text

paddle.text 目录是飞桨在文本领域的高层 API。有 Paddle 内置以及 PaddleNLP 中提供的两种。具体如下：

内置数据集相关 API

PaddleNLP 提供了在文本任务上简洁易用的全流程 API，旨在为飞桨开发者提升文本领域建模效率。深度适配飞桨框架，提供基于最新版 Paddle 的 NLP 领域最佳实践。

安装命令：

          pip install --upgrade paddlenlp -i https://pypi.org/simple

         

可参考 PaddleNLP GitHub 以及文档

API 模块	功能简介	API 用法简单示例
paddlenlp.datasets	数据集相关 API，包含自定义数据集，数据集贡献与数据集快速加载等功能	`train_ds = paddlenlp.datasets.load_dataset('ptb', splits='train')`
paddlenlp.data	文本数据处理 Pipeline 的相关 API	见链接文档
paddlenlp.transformers	基于 Transformer 结构相关的预训练模型 API，包含 ERNIE, BERT, RoBERTa, Electra 等主流经典结构和下游任务	`model = paddlenlp.transformers.BertForSequenceClassification.from_pretrained('bert-wwm-chinese', num_classes=2)`
paddlenlp.metrics	提供了文本任务上的一些模型评价指标，例如 Perplexity、GlLUE 中用到的评估器、BLEU、Rouge 等，与飞桨高层 API 兼容	`metric = paddlenlp.metrics.AccuracyAndF1()`
paddlenlp.embeddings	词向量相关 API，支持一键快速加载包预训练的中文词向量，VisualDL 高维可视化等功能	`token_embedding = paddlenlp.embeddings.TokenEmbedding(embedding_name='fasttext.wiki-news.target.word-word.dim300.en')`