wmt14

WMT14数据集。 原始WMT14数据集太大,所以提供了一组小数据集。 该模块将从 http://paddlepaddle.cdn.bcebos.com/demo/wmt_shrinked_data/wmt14.tgz 下载数据集,并将训练集和测试集解析为paddle reader creator。

paddle.dataset.wmt14.train(dict_size)[源代码]

WMT14训练集creator。

它返回一个reader creator,reader中的每个样本都是源语言单词ID序列,目标语言单词ID序列和下一个单词ID序列。

返回:训练集reader creator

返回类型:callable

paddle.dataset.wmt14.test(dict_size)[源代码]

WMT14测试集creator。

它返回一个reader creator,reader中的每个样本都是源语言单词ID序列,目标语言单词ID序列和下一个单词ID序列。

返回:测试集reader creator

返回类型:callable

paddle.dataset.wmt14.convert(path)

将数据集转换为recordio格式。