[ torch 参数更多 ]torch.nn.TransformerDecoderLayer¶
torch.nn.TransformerDecoderLayer¶
torch.nn.TransformerDecoderLayer(d_model,
nhead,
dim_feedforward=2048,
dropout=0.1,
activation="relu',
layer_norm_eps=1e-05,
batch_first=False,
norm_first=False,
device=None,
dtype=None)
paddle.nn.TransformerDecoderLayer¶
paddle.nn.TransformerDecoderLayer(d_model,
nhead,
dim_feedforward=2048,
dropout=0.1,
activation="relu',
attn_dropout=None,
act_dropout=None,
normalize_before=False,
weight_attr=None,
bias_attr=None,
layer_norm_eps=1e-05)
PyTorch 相比 Paddle 支持更多其他参数,具体如下:
参数映射¶
PyTorch | PaddlePaddle | 备注 |
---|---|---|
d_model | d_model | 表示输入的维度。 |
nhead | nhead | 表示多头注意力机制的 head 数量。 |
dim_feedforward | dim_feedforward | 前馈神经网络中隐藏层的大小。 |
dropout | dropout | dropout 值。 |
activation | activation | 前馈神经网络的激活函数。 |
layer_norm_eps | layer_norm_eps | layer normalization 层的 eps 值。 |
batch_first | - | 输入和输出 tensor 的 shape,Paddle 无此参数,暂无转写方式 |
norm_first | normalize_before | 设置对每个子层的输入输出的处理。如果为 True,则对每个子层的输入进行层标准化(Layer Normalization),对每个子层的输出进行 dropout 和残差连接(residual connection)。否则(即为 False),则对每个子层的输入不进行处理,只对每个子层的输出进行 dropout、残差连接(residual connection)和层标准化(Layer Normalization)。默认值:False。 仅参数名不一致 |
device | - | 设备类型,Paddle 无此参数,一般对网络训练结果影响不大,可直接删除。 |
dtype | - | 参数类型,Paddle 无此参数,一般对网络训练结果影响不大,可直接删除。 |
- | weight_attr | 指定权重参数的属性,PyTorch 无此参数,Paddle 保持默认即可。 |
- | bias_attr | 指定偏置参数的属性, PyTorch 无此参数,Paddle 保持默认即可。 |